《統計分析與SPSS的應用(第7版)》課件全套 第1-12章 SPSS統計分析軟件概述_第1頁
《統計分析與SPSS的應用(第7版)》課件全套 第1-12章 SPSS統計分析軟件概述_第2頁
《統計分析與SPSS的應用(第7版)》課件全套 第1-12章 SPSS統計分析軟件概述_第3頁
《統計分析與SPSS的應用(第7版)》課件全套 第1-12章 SPSS統計分析軟件概述_第4頁
《統計分析與SPSS的應用(第7版)》課件全套 第1-12章 SPSS統計分析軟件概述_第5頁
已閱讀5頁,還剩206頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第1章SPSS統計分析軟件概述SPSS使用基礎SPSS的基本運行方式利用SPSS進行數據分析的基本步驟引言SPSS的英文縮寫

StatisticalPackageforSocialScience:社會科學統計軟件包StatisticalProductandServiceSolutions:統計產品與服務解決方案SPSS的應用:當今世界上公認和流行的綜合統計分析軟件包SPSS以其強大的統計分析功能、方便的用戶操作界面、靈活的表格式分析報告及其精美的圖形展現,受到了社會各界統計分析人員的喜愛目前,SPSS軟件使用已經成為許多大專院校統計學專業和財經類、管理類專業本科學生的必修課程引言SPSS的特點操作簡便。絕大多數操作是通過菜單、按鈕、對話框完成的無需計算機編程、需記憶大量命令和參數分析方法豐富、分析結果清晰、直觀可以直接讀取其他常用軟件格式的數據文件,如:Excle、SAS等SPSS可在Windows、Linux、MacOS操作系統上運行,支持多種語言環境。SPSS提供了與R語言和Python語言的集成插件,用戶可在SPSS中方便地進行R和Python的編程,不僅有效提升了SPSS靈活處理數據的能力,也大大拓展了SPSS數據可視化和數據建模的功能不方便與一般的辦公軟件直接兼容SPSS使用基礎SPSS的基本窗口:數據編輯器窗口數據編輯窗口是對分析對象---SPSS數據文件進行錄入、修改、管理等基本操作的窗口SPSS數據文件均以.sav作為文件擴展名存儲在磁盤上數據視圖:顯示SPSS數據的內容變量視圖:顯示SPSS數據的結構組成:窗口主菜單、工具欄、數據編輯區、狀態區SPSS使用基礎SPSS的基本窗口:查看器窗口數據查看器窗口是顯示和管理SPSS統計分析結果、報表及圖形的窗口SPSS統計分析結果以.spv作為文件擴展名存儲在磁盤上兩個部分:目錄和內容組成:窗口主菜單、工具欄、結果顯示區、狀態區SPSS的基本運行方式完全窗口菜單方式所有分析操作過程都是通過菜單和按鈕及對話框方式進行的是經常使用的一種運行方式,適用于一般分析和SPSS的初學者SPSS的基本運行方式完全窗口菜單方式將待分析的變量從左邊的列表框選擇到右邊的列表框中變量是統計學中的基本概念。它指代的是現象的某種特征,如商品銷售額、受教育程度、產品的質量等級等都可以看做變量。變量的具體取值稱為變量值,即數據。變量一般以列的形式展現,是數據分析的基本單元。SPSS的基本運行方式程序運行方式:手工編寫SPSS命令程序一次性提交計算機運行適用于大規模的分析工作和熟練的SPSS程序員實現方法:打開語法窗口并編寫和修改SPSS程序點擊語法窗口中的運行菜單項,選擇運行方式運行SPSS的基本運行方式混合運行方式:先通過菜單選擇分析過程和參數,不立即提交(確定)執行,而是按粘貼按鈕計算機自動將用戶剛定義的分析過程和參數轉換成SPSS的命令,并顯示到語法窗口中用戶可對其進行必要的修改后再提交給計算機執行一般適用于熟練的SPSS程序員利用SPSS進行數據分析的基本步驟數據分析的一般步驟明確數據分析目標正確收集數據加工和整理數據選擇恰當的統計分析方法進行探索分析讀懂統計分析結果利用SPSS進行數據分析的一般步驟SPSS數據的準備SPSS數據的加工SPSS數據的分析SPSS分析結果的閱讀和解釋第2章SPSS數據文件的建立和管理SPSS數據文件SPSS數據的結構和定義方法SPSS數據的錄入與編輯讀取其他格式的數據文件SPSS數據文件合并SPSS數據文件SPSS數據文件是一種有結構的數據文件擴展名是.sav建立SPSS數據文件的兩項任務描述SPSS數據的結構錄入編輯SPSS的數據內容這兩部分工作分別在SPSS數據編輯器窗口的變量視圖和數據視圖中完成SPSS數據文件SPSS數據的基本組織方式原始數據的組織方式數據編輯器窗口中的一行稱為一個個案(case)或觀測,所有個案組成完整的SPSS數據數據編輯器窗口中的一列稱為一個變量。每個變量都有一個名字,稱為變量名,是訪問和分析SPSS變量的唯一標識示例:當代大學生的職業生涯規劃現狀和愿望的問卷調查SPSS數據文件SPSS數據的基本組織方式計數數據的組織方式:數據編輯器窗口中的一行為變量的一個分組(或多變量交叉分組下的一個分組)。所有行囊括了該變量的所有分組情況(或多變量交叉下的所有分組情況)。數據編輯器窗口中的一列仍為一個變量,代表某個問題(或某個方面的特征)以及相應的計數結果示例:SPSS數據的結構和定義方法SPSS數據的結構是對SPSS每列變量及其相關屬性的描述在數據編輯器窗口的變量視圖中進行定義示例:變量名變量類型、列寬、小數位變量名標簽變量值標簽缺失值計量尺度變量角色SPSS數據的結構和定義方法SPSS數據的結構是對SPSS每列變量及其相關屬性的描述強調1:缺失數據數據中明顯錯誤或明顯不合理的數據以及漏填的數據都可看做缺失數據用戶缺失示例SPSS數據的結構和定義方法SPSS數據的結構是對SPSS每列變量及其相關屬性的描述強調2:計量尺度,統計學依據變量的計量尺度將變量分為三大類數值型變量:指諸如身高、體重、血壓等連續數值型變量定序型變量:具有內在固有大小或高低順序,但它又不同于數值型變量,一般可以用數值或字符表示定類型變量:是指沒有內在固有大小或高低順序,一般以數值或字符表示的各個類別SPSS數據的錄入與編輯SPSS數據的錄入帶變量值標簽的數據錄入SPSS數據的編輯SPSS數據的定位插入和刪除一個個案插入和刪除一個變量數據的移動復制和刪除SPSS數據的保存SPSS支持的數據格式SPSS格式EXCEL格式文本格式讀取其他格式的數據文件直接讀取其他格式的數據文件使用向導導入其他格式的數據示例SPSS數據文件的合并SPSS中合并數據文件:是指將一個(或多個)已存儲在磁盤上的SPSS數據文件或其他數據集中的數據文件分別依次與SPSS當前數據編輯器窗口中的數據合并SPSS提供了兩種合并數據文件的方式縱向合并橫向合并SPSS數據文件的合并縱向合并:是將當前數據編輯器窗口中的數據與另一個SPSS數據文件中的數據進行首尾對接,即將一個SPSS數據文件的內容追加到當前數據編輯器窗口中數據的后面,依據兩份數據文件中的變量名進行數據對接示例和操作職工和追加職工數據的合并SPSS數據文件的合并橫向合并:將數據編輯器窗口中的數據與另一個SPSS數據文件中的數據進行左右對接,即將一個SPSS數據文件的內容拼到數據編輯器窗口中當前數據的右邊,依據兩個數據文件中的個案進行數據對接示例和操作職工數據和獎金數據的橫向合并第3章SPSS數據的預處理數據的排序查找重復個案變量計算數據選取計數分類匯總其他數據的排序數據排序的作用便于數據的瀏覽快捷地找到數據的最大值和最小值,進而可以計算出數據的全距,初步把握和比較數據的離散程度發現數據中可能異常的值,為進一步明確它們是否對分析產生重要影響等提供幫助SPSS的數據排序將數據編輯器窗口中的數據按照某個或多個指定變量的變量值升序或降序重新排列。這里的變量也稱為排序變量。排序變量只有一個時,稱為單變量排序。排序變量有多個時,稱為多重排序。多重排序中,第一個指定的排序變量稱為主排序變量,其他依次指定的變量分別稱為第二排序變量、第三排序變量等數據的排序示例與操作大學生職業生涯規劃問卷調查數據,按專業分類和畢業后意向進行多重排序查找重復個案查找重復個案的方法:排序示例和操作對2.6.1節數據縱向合并后的數據,找到其中的重復個案變量計算變量計算的目的派生新變量變換數據的原有分布SPSS變量計算是在原有數據的基礎上,根據用戶給出的SPSS算術表達式以及函數,對所有個案或滿足條件的部分個案,計算產生變量變量計算過程中涉及幾個概念SPSS算術表達式SPSS條件表達式SPSS函數變量計算SPSS算術表達式:是由常量、變量、算術運算符、圓括號、函數等組成的式子變量是指那些已存在于數據編輯器窗口中的已有變量算術運算符主要包括:+(加)、-(減)、?(乘)、/(除)、??(乘方)操作對象的數據類型為數值型運算的先后次序是:先計算乘方,再計算乘除,最后計算加減。在同級運算中,按從左往右的順序進行計算。通過圓括號改變原有的計算順序在同一算術表達式中的常量及變量,數據類型應該一致,否則無法計算變量計算SPSS條件表達式簡單條件表達式:由關系運算符、常量、變量以及算術表達式等組成的式子。其中,關系運算符包括>(大于)、=(大于等于)、<=(小于等于)復合條件表達式:又稱邏輯表達式,是由邏輯運算符、圓括號和簡單條件表達式等組成的式子。其中,邏輯運算符包括&或AND(并且)、|或OR(或者)、~或NOT(非)。NOT的運算最優先,其次是AND,最后是OR。可以通過圓括號改變這種運算次序變量計算SPSS函數函數是事先編好并存儲在SPSS軟件中,能夠實現某些特定計算任務的一段計算機程序。這些程序段都有各自的名字,稱為函數名,執行這些程序段得到的計算結果稱為函數值用戶在使用這些函數時,只需通過書寫相應的函數名,并給出必要的計算參數,SPSS便會自動計算函數值幾類SPSS函數算術函數、統計函數、與分布相關的函數查找函數、字符串函數日期函數、缺失值函數、其他函數變量計算示例與操作數據選取數據選取:是根據分析的需要,從已收集到的大批量數據(總體)中按照一定的規則抽取部分數據(樣本)參與分析數據選取方法按指定條件選取隨機選取隨機數的生成選取某一區域內的樣本通過篩選器變量選取數據選取示例與操作數據計數數據計數SPSS實現的計數是對所有個案或滿足某條件的部分個案,計算若干個變量中有幾個變量的值落在指定的區間內,并將計數結果存入一個新變量的過程步驟:指定哪些變量參與計數,計數的結果存入哪個新變量中指定計數區間區間:單個變量值;系統缺失值;系統或用戶缺失值;給定最大值和最小值的區間;小于等于某指定值的區間;大于等于某指定值的區間數據計數示例與操作分類匯總分類匯總:按照某分類變量進行分類計算SPSS實現分類匯總涉及按照哪個變量進行分類對哪個變量進行匯總,并指定對匯總變量計算哪些統計量(如平均工資、平均消費金額和標準差)分類匯總示例與操作數據分組數據分組:對數值型數據進行整理和粗略把握數據分布的重要工具組距分組:將全部變量值依次劃分為若干個區間,并將同一區間的變量值作為一組組距分組中的兩個關鍵問題分組數目的確定組距的確定數據分組示例與操作數據預處理的其他數據加權和數據拆分示例和操作第4章SPSS基本統計分析頻數分析計算基本描述統計量交叉分組下的頻數分析多選項分析比率分析頻數分析通過頻數分析了解變量取值的狀況頻數分析的基本任務編制頻數分布表SPSS中的頻數分布表包括:頻數、百分比、有效百分比、累計百分比繪制統計圖統計圖是一種最為直接的數據刻畫方式柱形圖、餅圖、直方圖頻數分析示例與操作擴展功能、示例和操作:計算分位數分位數是變量在不同分位點上的取值分位點在0~100之間。一般使用較多的是四分位點,即將所有數據按升序排序后平均等分成四份,各分位點依次是25%,50%,75%。于是,四分位數分別是25%,50%,75%分位點對應的變量值,依次稱為下四分位數、中位數和上四分位數計算基本描述統計量常見的基本描述統計量大致刻畫集中趨勢的描述統計量刻畫離散程度的描述統計量刻畫分布形態的描述統計量以上三類統計量能夠極為準確和清晰地刻畫數據的分布特點刻畫集中趨勢的描述統計量均值、中位數、眾數均值標準誤計算基本描述統計量刻畫離散程度的描述統計量樣本標準差:是對變量取值距均值的平均離散程度的估計樣本標準差值越大,說明變量值之間的差異越大,距均值這個中心值的離散趨勢越明顯。樣本標準差是有計量單位的方差:樣本方差值越大,說明變量值之間的差異越大。樣本方差沒有計量單位全距:是數據的最大值與最小值之間的絕對差計算基本描述統計量刻畫分布形態的描述統計量偏度系數:是描述變量取值分布形態對稱性的統計量時,偏度值等于0;分布是不對稱分布時,偏度值大于0表示正偏或稱右偏,直方圖中有一條長尾拖在右邊;偏度值小于0表示負偏或稱左偏,直方圖中有一條長尾拖在左邊偏度絕對值越大,表示數據分布形態的偏斜程度越大計算基本描述統計量刻畫分布形態的描述統計量峰度系數:描述變量取值分布形態陡緩程度的統計量數據分布與標準正態分布的陡緩程度相同時,峰度值等于0峰度值大于0表示數據的分布比標準正態分布更陡峭,稱為尖峰分布峰度值小于0表示數據的分布比標準正態分布更平緩,稱為平峰分布計算基本描述統計量示例與操作計算基本描述統計量示例與操作數據標準化處理后(標準化值或z分數)更利于對異常值的判斷假設認知得分的總體分布為正態分布,根據統計學中經典的3σ準則,異常值通常為3個標準差之外的變量值z分數的絕對值大于3,則為異常值交叉分組下的頻數分析交叉分組下的頻數分析的目的和基本任務根據收集到的樣本數據編制交叉列聯表在交叉列聯表的基礎上,對兩變量間是否存在一定的相關性進行分析交叉列聯表的主要內容行變量列變量邊緣分布條件分布交叉分組下的頻數分析交叉列聯表行列變量間關系的分析兩個特例的列聯表正相關負相關交叉分組下的頻數分析交叉列聯表的卡方檢第一步,提出原假設行變量與列變量獨立第二步,計算檢驗統計量期望頻數的計算方法交叉分組下的頻數分析交叉列聯表的卡方檢第三步,確定顯著性水平和臨界值顯著性水平α是指原假設為真卻將其拒絕的風險,即棄真的概率。通常設為0.05或0.01第四步,得出結論和決策第一,根據統計量觀測值和臨界值比較的結果進行決策第二,根據統計量觀測值的概率P-值和顯著性水平α比較的結果進行決策交叉列聯表卡方檢驗的說明列聯表各單元格中期望頻數的大小對卡方檢驗統計量的影響樣本量的大小對卡方檢驗統計量的影響交叉分組下的頻數分析示例與操作多選項分析多選項分析的目的和思路SPSS中的多選項分析是針對問卷調查中的多選項問題的多選項問題:要求被調查者從問卷給出的若干個可選答案中選擇兩個及以上的答案多選項問題的回答方式大致分為兩類第一類,選擇的答案有一定的先后順序第二類,選擇的答案沒有一定的先后順序對多選項問題分析的一般步驟第一,將多選項問題分解第二,利用頻數分析或交叉分組下的頻數分析等方法進行分析多選項分析多選項問題的分解將問卷中的一個多選項問題分解成若干個問題,對應設置若干個SPSS變量,分別存放描述這些問題的幾個選擇答案對一個多選項問題的分析就可以轉化成對多個問題的分析,也即對多個SPSS變量的分析多選項問題的分解通常有兩種方法:第一,多選項二分法將多選項問題中的每個備選答案設為一個SPSS變量,每個變量只有0和1兩個取值,分別表示選擇該答案和不選擇該答案第二,多選項分類法首先估計多選項問題最多可能出現的答案個數;然后,為每個答案設置一個SPSS變量,變量取值為多選項問題中的備選答案多選項分析多選項問題的分解示例示例多選項分析SPSS的多選項分析:用于處理多選項問題,基本思路:第一,按多選項二分法或多選項分類法將多選項問題分解成若干個問題,并設置若干個SPSS變量第二,采用多選項頻數分析或多選項交叉分組下的頻數分析示例和操作多選項分析示例和操作比率分析比率分析的目的和主要指標比率分析用于對兩變量間變量值比率變化的描述分析,適用于數值型變量主要指標加權比率均值平局絕對離差離散系數變異系數比率分析示例與操作第5章SPSS的參數檢驗參數檢驗概述單樣本t檢驗兩獨立樣本t檢驗兩配對樣本t檢驗參數檢驗概述推斷統計與參數檢驗參數檢驗是推斷統計的重要組成部分推斷統計方法是根據樣本數據推斷總體特征的方法它在對樣本數據描述的基礎上,以概率的形式對統計總體的未知數量特征(如均值、方差等)進行表述利用樣本數據對總體特征的推斷通常在以下兩種情況下進行第一,總體分布已知(如總體為正態分布)的情況下,根據樣本數據對總體分布的統計參數(如均值、方差等)進行推斷--參數檢驗第二,總體分布未知的情況下,根據樣本數據對總體的分布形式或特征進行推斷—非參數檢驗對總體特征的推斷一般采用參數估計(點估計和區間估計)和假設檢驗兩類方式實現參數檢驗概述假設檢驗的基本思想首先,對總體參數值提出假設然后,利用樣本告知的信息去驗證先前提出的假設是否成立如果樣本數據不能夠充分證明和支持假設,則在一定的概率條件下,應拒絕該假設如果樣本數據不能夠充分證明和支持假設是不成立的,則不能推翻假設成立的合理性和真實性假設檢驗推斷過程所依據的原理:小概率原理即發生概率很小的隨機事件在某一次特定的實驗中是幾乎不可能發生的參數檢驗概述假設檢驗的基本步驟第一,提出原假設(記為H0)和備擇假設(記為H1)根據推斷檢驗的目標,對待推斷的總體參數或分布提出一個基本假設,即原假設第二,選擇檢驗統計量在原假設成立的條件下,樣本值(或更極端值)發生的概率,是通過計算檢驗統計量觀測值發生的概率而間接得到第三,計算檢驗統計量觀測值發生的概率在認為原假設成立的條件下,利用樣本數據計算檢驗統計量觀測值發生的概率,即概率P-值或稱為相伴,該概率值間接地給出了樣本值(或更極端值)在原假設成立條件下發生的概率第四,給定顯著性水平α,并作出統計決策若概率P-值小于α,拒絕原假設;否則,不能拒絕原假設單樣本t檢驗單樣本t檢驗的目的:利用來自某總體的樣本數據,推斷該總體的均值是否與指定的檢驗值存在顯著差異,是對總體均值的假設檢驗單樣本t檢驗中僅涉及一個總體,且將采用t檢驗的方法進行分析單樣本t檢驗的前提是樣本來自的總體應服從或近似服從正態分布示例單樣本t檢驗單樣本t檢驗的基本步驟提出原假設(H0):總體均值與檢驗值之間不存在顯著差異,備擇假設為它們之間存在差異選擇檢驗統計量計算檢驗統計量的觀測值和概率P-值給定顯著性水平α,并作出決策t統計量服從有n-1個自由度的t分布單樣本t檢驗示例與操作原假設:兩獨立樣本t檢驗兩獨立樣本t檢驗的目的:利用來自兩個總體的獨立樣本,推斷兩個總體的均值是否存在顯著差異兩獨立樣本t檢驗的前提:樣本來自的總體應服從或近似服從正態分布兩樣本相互獨立,即從一總體中抽取一個樣本對從另一總體中抽取一個樣本沒有任何影響,兩個樣本的樣本量可以不等示例兩獨立樣本t檢驗兩獨立樣本t檢驗的基本步驟提出原假設(H0):兩總體均值無顯著差異選擇檢驗統計量兩總體分布分別為:兩樣本均值差的抽樣分布仍為正態分布,均值為:方差為:方差估計:方差未知且相等;方差未知且不相等兩獨立樣本t檢驗兩獨立樣本t檢驗的基本步驟選擇檢驗統計量兩總體方差是否相等是決定如何估計抽樣分布方差的關鍵兩總體方差是否相等的檢驗:原假設:兩總體方差無顯著差異SPSS中通過LeveneF方法采用F統計量進行檢驗計算檢驗統計量的觀測值和概率P-值兩獨立樣本t檢驗兩獨立樣本t檢驗的基本步驟給定顯著性水平α,并作出決策:兩步決策第一步,利用F檢驗判斷兩總體的方差是否相等第二步,利用t檢驗判斷兩總體均值是否存在顯著差異兩獨立樣本t檢驗示例與操作研究男生與女生的專業和職業認知得分的平均值是否存在顯著差異研究長期吸煙是否為導致膽固醇升高的直接原因將過度吸煙組與短期吸煙組的煙齡和膽固醇數據,看做來自兩個近似服從正態分布的總體的隨機獨立樣本。采用兩獨立樣本t檢驗進行分析兩配對樣本t檢驗兩配對樣本t檢驗的目的:利用來自兩個總體的配對樣本,推斷兩個總體的均值是否存在顯著差異配對樣本可以是個案在“前”、后”兩種狀態下某屬性的兩種不同特征,也可以是對某事物兩個不同側面的描述配對樣本通常具有兩個特征兩個樣本的樣本量相同兩個樣本觀測值的先后順序是一一對應的,不能隨意更改示例:研究減肥茶是否有顯著的減肥效果兩配對樣本t檢驗兩配對樣本t檢驗的基本步驟兩配對樣本t檢驗的原假設:兩總體均值無顯著差異選擇檢驗統計量,思路:首先,對兩個樣本分別計算出每對觀測值的差值得到差值樣本然后,利用差值樣本,通過對其總體均值是否與0有顯著差異的檢驗,推斷兩總體均值的差是否顯著為0如果差值樣本的總體均值與0有顯著差異,則可以認為兩總體的均值有顯著差異如果差值樣本的總體均值與0無顯著差異,則可以認為兩總體的均值不存在顯著差異兩配對樣本t檢驗兩配對樣本t檢驗的基本步驟計算檢驗統計量的觀測值和概率P-值給定顯著性水平α,并作出決策示例與操作第6章SPSS的方差分析方差分析概述單因素方差分析多因素方差分析協方差分析方差分析概述方差分析:從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量,對觀測變量有顯著影響的各個控制變量其不同水平以及各水平的交互搭配是如何影響觀測變量方差分析認為觀測變量值的變化受兩類因素的影響控制因素(控制變量)不同水平所產生的影響隨機因素(隨機變量)所產生的影響若觀測變量值在某控制變量的各個水平中出現了明顯波動,則認為該控制變量是影響觀測變量的主要因素若觀測變量值在某控制變量的各個水平中沒有出現明顯波動,則認為該控制變量沒有對觀測變量產生重要影響,觀測變量的數據波動是由抽樣誤差造成的方差分析概述判斷依據:控制變量各水平下的觀測變量總體的分布是否出現顯著差異兩個基本假設前提:觀測變量各總體應服從正態分布觀測變量各總體的方差應相同基于上述兩個基本假設,方差分析對各總體分布是否有顯著差異的推斷就轉化成對各總體均值是否存在顯著差異的推斷根據控制變量個數和類型,方差分析分成單因素方差分析多因素方差分析協方差分析單因素方差分析單因素方差分析:研究一個控制變量的不同水平是否對觀測變量產生了顯著影響觀測變量方差的分解比較觀測變量總離差平方和各部分的比例若組間離差平方和所占比例較大,則說明觀測變量的變動主要是由控制變量引起的若組間離差平方和所占比例較小,則說明控制變量的不同水平沒有給觀測變量帶來顯著影響,觀測變量的變動是由隨機變量因素引起的單因素方差分析單因素方差分析的數學模型如果控制變量A對觀測變量沒有影響,則各水平的效應ai應全部為0;否則應不全為0稱為水平Ai對觀測變量產生的效應單因素方差分析單因素方差分析的基本步驟提出原假設:選擇檢驗統計量:F統計量服從(k-1,n-k)個自由度的F分布計算檢驗統計量的觀測值和概率P-值給定顯著性水平α,并作出決策若概率P-值小于顯著性水平α,則應拒絕原假設,認為控制變量不同水平下觀測變量各總體的均值存在顯著差異,控制變量的各個效應不同時為0,控制變量的不同水平對觀測變量均值產生了顯著影響反之,不應拒絕原假設單因素方差分析示例與操作單因素方差分析單因素方差分析的進一步分析方差齊性檢驗:對控制變量不同水平下各觀測變量總體方差是否相等進行分析多重比較檢驗:利用全部觀測變量值,對各個水平下觀測變量總體均值進行逐對比較LSD方法:最小顯著性差異方法檢驗統計量其他檢驗:先驗對比檢驗、趨勢檢驗統計量服從n-k個自由度的t分布單因素方差分析示例與操作多因素方差分析多因素方差分析:研究兩個及兩個以上控制變量是否對觀測變量產生顯著影響不僅能夠分析多個因素對觀測變量的獨立影響,更能夠分析多個控制因素的交互作用能否對觀測變量的分布產生顯著影響觀測變量方差的分解多因素方差分析比較觀測變量總離差平方和各部分的比例若SSA所占比例較大,則說明控制變量A是引起觀測變量變動的主要因素之一,觀測變量的變動可以部分地由控制變量A來解釋;反之,不能對SSB和SSAB同理多因素方差分析的數學模型如果控制變量A(或B)對觀測變量沒有影響,則各水平的效應ai(或bj)應全部為0;否則不全為0多因素方差分析多因素方差分析的基本步驟提出原假設:選擇檢驗統計量:計算檢驗統計量的觀測值和概率P-值給定顯著性水平α,并作出決策如果FA的概率P-值小于顯著性水平α,則應拒絕原假設,認為控制變量A的各個效應不同時為0,控制變量A的不同水平對觀測變量產生了顯著影響;反之。其他同理。多因素方差分析示例與操作多因素方差分析多因素方差分析的進一步分析多因素方差分析的非飽和模型SPSS多因素方差分析的其他功能均值對比控制變量交互作用的圖形分析多因素方差分析示例與操作協方差分析協方差分析:將那些人為很難做水平控制的控制因素作為協變量,并在剔除協變量對觀測變量影響的條件下,分析控制變量(可控)對觀測變量的作用,從而更加準確地對水平可控因素進行評價協方差分析的數學模型zij是水平Ai下的第j次試驗的觀測值對應的協變量值協方差分析示例與操作結果解讀第7章SPSS的非參數檢驗單樣本的非參數檢驗兩獨立樣本的非參數檢驗多獨立樣本的非參數檢驗兩配對樣本的非參數檢驗多配對樣本的非參數檢驗單樣本的非參數檢驗單樣本非參數檢驗:對單個總體的分布類型等進行推斷,主要包括:卡方檢驗、二項分布檢驗、K-S檢驗、變量值隨機性檢驗總體分布的卡方檢驗基本思想:根據樣本數據,推斷總體分布與期望分布或某一理論分布是否存在顯著差異,是一種吻合性檢驗適用于對有多個分類值的總體分布的分析原假設H0:樣本來自的總體分布與期望分布或某一理論分布無顯著差異檢驗統計量:決策:若χ2的概率P-值小于顯著性水平α,則應拒絕原假設,認為樣本來自的總體分布與期望分布或某一理論分布存在顯著差異;反之單樣本的非參數檢驗示例與操作單樣本的非參數檢驗二項分布檢驗基本思想:通過樣本數據檢驗樣本來自的總體是否服從指定概率為p的二項分布原假設H0:樣本來自的總體與指定的二項分布無顯著差異檢驗統計量小樣本下的精確統計量:大樣本下的近似統計量:決策:若概率值小于顯著性水平α,則拒絕原假設,認為樣本來自的總體與指定的二項分布有顯著差異;反之單樣本的非參數檢驗示例與操作單樣本的非參數檢驗單樣本K-S檢驗基本思想:利用樣本數據推斷樣本來自的總體是否服從某一理論分布,是一種擬合優度的檢驗適用于探索連續型隨機變量的分布檢驗統計量決策:若樣本的總體分布與理論分布的差異不明顯,則D不應較大若D統計量的概率P-值小于顯著性水平α,則應拒絕原假設,認為樣本來自的總體與指定的分布有顯著差異;反之單樣本的非參數檢驗示例與操作單樣本的非參數檢驗變量值隨機性檢驗基本思想:通過對樣本觀測值的分析,實現對變量值的出現是不是隨機進行檢驗原假設H0:變量值的出現是隨機的檢驗統計量:基于游程構建游程是觀測值序列中連續出現相同數值的次數決策:如果概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為變量值的出現不是隨機的;反之。單樣本的非參數檢驗示例與操作兩獨立樣本的非參數檢驗兩獨立樣本的非參數檢驗:在對總體分布不甚了解的情況下,通過對兩個獨立樣本的分析推斷樣本來自的兩總體的分布是否存在顯著差異主要方法:曼惠特尼U檢驗K-S檢驗W-W游程檢驗極端反應檢驗示例兩獨立樣本的非參數檢驗兩獨立樣本的曼惠特尼U檢驗基本思想:通過對兩個樣本平均秩的研究來進行推斷秩,簡單說就是變量值排序的名次原假設H0:兩獨立樣本來自的兩總體的分布無顯著差異檢驗統計量:決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設,認為樣本來自的兩總體的分布存在顯著差異;反之。兩獨立樣本的非參數檢驗兩獨立樣本的K-S檢驗原假設H0:兩獨立樣本來自的兩總體的分布無顯著差異計算步驟:首先,將兩樣本混合并按升序排序然后,分別計算兩樣本秩的累計頻數和累計頻率最后,計算兩組累計頻率差的絕對值,得到累計頻率絕對差序列并得到D統計量決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設,認為樣本來自的兩總體的分布存在顯著差異;反之。兩獨立樣本的非參數檢驗兩獨立樣本的游程檢驗原假設H0:兩獨立樣本來自的兩總體的分布無顯著差異計算依據:游程,且游程數依賴于變量的秩計算步驟:首先,將兩樣本混合并按升序排序然后,對組標記值序列計算游程數如果兩總體的分布存在較大差距,那么基于組標記的游程數會相對比較少;反之最后,根據游程數計算Z統計量,該統計量近似服從正態分布決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設,認為樣本來自的兩總體的分布存在顯著差異;反之。兩獨立樣本的非參數檢驗兩獨立樣本的極端反映檢驗原假設H0:兩獨立樣本來自的兩總體的分布無顯著差異計算依據:將一個樣本作為控制樣本,另一個樣本作為實驗樣本計算步驟:首先,將兩個樣本混合按升序排序然后,求出控制樣本的最小秩Qmin和最大秩Qmax,并計算出跨度(Span):S=Qmax-Qmin+1最后,為消除樣本數據中極端值對分析結果的影響,在計算跨度之前可按比例(通常為5%)剔除控制樣本中2h個靠近兩端的觀測值,然后再求跨度,得到截頭跨度決策:如果概率P-值小于給定的顯著性水平α,則拒絕原假設,認為樣本來自的兩總體的分布存在顯著差異;反之。兩獨立樣本的非參數檢驗示例與操作多獨立樣本的非參數檢驗多獨立樣本的非參數檢驗:通過分析多組獨立樣本數據,推斷樣本來自的多個總體的中位數或分布是否存在顯著差異SPSS提供的多獨立樣本的非參數檢驗方法主要包括中位數檢驗Kruskal-Wallis檢驗Jonckheere-Terpstra檢驗示例多獨立樣本的非參數檢驗多獨立樣本的中位數檢驗原假設H0:多個獨立樣本來自的多個總體的中位數無顯著差異檢驗統計量和計算步驟:首先,將多個樣本混合,按升序排序,并求出混合樣本的中位數然后,分別計算各樣本中大于和小于上述中位數的樣本量最后,利用卡方檢驗方法分析各樣本來自的總體對于上述中位數的分布是否一致若多個總體的中位數無顯著差異,則這個共同的中位數應在各樣本中均處在中間位置上。每個樣本中大于該中位數與小于該中位數的樣本量應大致相同決策:如果概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為多個獨立樣本來自的多個總體的中位數存在顯著差異;反之多獨立樣本的非參數檢驗多獨立樣本的Kruskal-Wallis檢驗原假設H0:多獨立樣本來自的多個總體的分布無顯著差異檢驗統計量和計算步驟:首先,將多個樣本數據混合并按升序排序,求出各變量值的秩然后,考察各組秩的均值是否存在顯著差異如果各組秩的均值不存在顯著差異,則是多組數據充分混合,數值相差不大的結果,可以認為多個總體的分布無顯著差異;反之決策:如果概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為多個獨立樣本來自的多個總體的分布存在顯著差異;相反,多獨立樣本的非參數檢驗多獨立樣本的Jonckheere-Terpstr檢驗原假設H0:多獨立樣本來自的多個總體的分布無顯著差異檢驗統計量:計算一個樣本的觀測值小于其他樣本的觀測值的個數決策:如果概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為多個獨立樣本來自的多個總體的分布存在顯著差異;相反,多獨立樣本的非參數檢驗示例與操作兩配對樣本的非參數檢驗兩配對樣本的非參數檢驗:在對總體分布不甚了解的情況下,通過對兩配對樣本的分析,推斷樣本來自的兩個總體的分布是否存在顯著差異SPSS兩配對樣本的非參數檢驗方法,主要包括:McNemar檢驗符號檢驗Wilcoxon符號秩檢驗兩配對樣本的非參數檢驗兩配對樣本的McNemar檢驗是一種變化顯著性檢驗,它將研究對象自身作為對照者檢驗其“前后”的變化是否顯著原假設H0:兩配對樣本來自的兩總體的分布無顯著差異檢驗統計量:McNemar檢驗采用二項分布檢驗的方法,計算分布是否服從概率p為0.5的二項分布決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為兩配對樣本所來自的兩總體的分布存在顯著差異兩配對樣本的非參數檢驗示例與操作兩配對樣本的非參數檢驗兩配對樣本的符號檢驗原假設H0:兩配對樣本來自的兩總體的分布無顯著差異檢驗統計量和計算步驟:采用二項分布檢驗首先,分別用第二個樣本的各個觀測值減去第一個樣本對應的觀測值,差值為正則記為正號,差值為負則記為負號然后,將正號的個數與負號的個數進行比較若正號個數和負號個數大致相當,則可以認為第二個樣本大于第一個樣本觀測值的個數,與第二個樣本小于第一個樣本觀測值的個數是大致相當的,從總體上講,這兩個配對樣本的總體分布差距較小;反之決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為兩配對樣本所來自的兩總體的分布存在顯著差異兩配對樣本的非參數檢驗示例與操作操作步驟同兩配對樣本的McNemar檢驗,選擇【符號】選項兩配對樣本的非參數檢驗兩配對樣本的Wilcoxon符號秩檢驗原假設H0:兩配對樣本來自的兩總體的分布無顯著差異檢驗統計量和計算步驟:基于秩首先,分別用第二個樣本的各個觀測值減去第一個樣本對應的觀測值。差值為正記為正號,為負則記為負號,同時保存差值的絕對值然后,將差值的絕對值按升序排序,并求出差值的秩最后,分別計算正號秩和W+及負號秩和W-如果正號秩和與負號秩和大致相當,則說明一個樣本大于另一個樣本和該樣本小于另一個樣本的幅度大致相當,兩樣本數據差的正負變化程度基本相當,兩配對樣本來自的兩總體的分布無顯著差異決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為兩配對樣本所來自的兩總體的分布存在顯著差異兩配對樣本的非參數檢驗示例與操作操作步驟同兩配對樣本的McNemar檢驗,選擇威爾科克森(Wilcoxon)選項多配對樣本的非參數檢驗多配對樣本的非參數檢驗:通過分析多個配對樣本數據,推斷樣本來自的多個總體的中位數或分布是否存在顯著差異的方法SPSS中的多配對樣本的非參數檢驗方法,主要包括:Friedman檢驗CochranQ檢驗Kendall協同系數檢驗多配對樣本的非參數檢驗多配對樣本的Friedman檢驗:利用秩實現對多個總體分布是否存在顯著差異進行檢驗原假設H0:多個配對樣本來自的多個總體的分布無顯著差異檢驗統計量:采用類似方差分析的方法構造檢驗統計量無論觀察哪個區組,每一種處理下的數據在本區組內的秩的所有可能取值為1~k(k種處理)中的任何一個值如果k種處理不存在差異,則每一種處理下的各區組的秩和Ri(i=1,2,…k)(或平均秩)應等于其他任何一種下各區組的秩和Rj(或平均秩);反之決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為兩配對樣本所來自的兩總體的分布存在顯著差異多配對樣本的非參數檢驗示例與操作多配對樣本的非參數檢驗多配對樣本的

CochranQ檢驗:利用秩實現對多個總體分布是否存在顯著差異進行檢驗原假設H0:多個配對樣本來自的多個總體的分布無顯著差異檢驗統計量:認為每行中取1的個數是可確定的。在原假設成立的條件下,每列中出現1的概率是相等的,且這個概率值與各行中出現1的個數有關決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為兩配對樣本所來自的兩總體的分布存在顯著差異多配對樣本的非參數檢驗示例與操作操作步驟同多配對樣本的Friedman檢驗,選擇柯克蘭Q(CochranQ)選項多配對樣本的非參數檢驗多配對樣本的

Kendall協同系數檢驗:與Friedman檢驗方法相結合,可方便地實現對評判者的評判標準是否一致的分析原假設H0:評判者的評判標準不一致示例:如果利用Friedman方法檢驗出各總體的分布不存在顯著差異,即各個歌手得分的秩不存在顯著差異,則意味著評委的打分存在隨意性,評分標準不一致。第8章SPSS的相關分析相關分析繪制散點圖計算相關系數偏相關分析相關分析相關分析是分析客觀事物之間關系的數量分析方法客觀事物之間的關系大致可歸納為兩大類:函數關系和統計關系相關分析是用來分析事物之間統計關系的方法統計關系指的是兩事物之間的一種非一一對應的關系,即當一個變量x取一定值時,另一變量y無法依確定的函數取唯一確定的值統計關系可進一步劃分為線性相關關系和非線性相關關系線性相關關系又可分為正線性相關關系和負線性相關關系正線性相關關系指兩個變量線性的相隨變動方向相同負線性相關關系指兩個變量線性的相隨變動方向相反繪制散點圖和計算相關系數是相關分析最常用的工具繪制散點圖繪制散點圖:將數據以點的形式畫在直角平面上通過觀察散點圖能夠直觀發現數據點的大致走向探索變量間的統計關系以及強弱程度繪制散點圖示例和操作計算相關系數相關系數以數值的方式精確地反映了兩個變量間線性相關的強弱程度。利用相關系數進行變量間線性關系的分析的步驟第一,利用樣本數據計算樣本相關系數r樣本相關系數r反映了兩變量間線性相關程度的強弱對不同類型的變量應采用不同的相關系數指標相關系數r的取值在-1~+1之間r>0:兩變量存在正的線性相關關系;|r|>0.8:兩變量具有較強的線性相關關系;|r|<0.3:兩變量的線性相關關系較弱第二,對樣本來自的兩總體是否存在顯著的線性關系進行推斷原假設H0:兩總體無顯著線性關系,存在零相關檢驗統計量:對不同類型的變量應采用不同的檢驗統計量計算檢驗統計量的觀測值和對應的概率P-值決策計算相關系數相關系數的種類Pearson簡單相關系數Spearman等級相關系數Kendallτ相關系數Pearson簡單相關系數:用來度量兩數值型變量間的線性相關關系定義:檢驗統計量:計算相關系數Spearman等級相關系數:用來度量定序型變量間的線性相關關系計算時利用數據的秩:將兩變量的秩記為(Ui,Vi)定義:檢驗統計量:如果兩變量的相關性較強,它們秩的變化具有同步性當兩變量完全正相關時Ui=Vi如果兩變量的相關性較弱,它們秩的變化不具有同步性計算相關系數Kendallτ相關系數采用非參數檢驗方法度量定序型變量間的線性相關關系利用變量的秩計算一致對數目(U)和非一致對數目(V)如果兩變量具有較強的正相關關系,則一致對數目U應較大,非一致對數目V應較小如果兩變量具有較強的負相關關系,則一致對數目U應較小,非一致對數目V應較大如果兩變量的相關性較弱,則一致對數目U和非一致對數目V應大致相等定義:檢驗統計量:計算相關系數示例與操作偏相關分析偏相關系數也稱凈相關分析:是在控制其他變量的線性影響的條件下分析兩變量間的線性相關性計算偏相關系數(凈相關系數)一個控制變量時的

偏相關系數稱為一階偏相關系數零個控制變量時的偏相關系數稱為零階偏相關系數,即相關系數偏相關分析的步驟計算樣本的偏相關系數對樣本來自的兩總體是否存在顯著的凈相關進行推斷原假設H0:兩總體的偏相關系數與零無顯著差異選擇檢驗統計量計算檢驗統計量的觀測值和對應的概率P-值決策偏相關分析示例與操作將體脂率作為控制變量,分析體重和腰圍的相關性第9章SPSS的線性回歸分析回歸分析概述線性回歸分析和線性回歸模型回歸方程的統計檢驗多元回歸分析中的其他問題線性回歸分析的基本操作線性回歸分析的應用舉例曲線估計回歸分析概述什么是回歸分析回歸分析用于分析事物之間的統計關系,側重考察變量之間的數量變化規律,并通過回歸方程的形式描述和反映這種關系,幫助人們準確把握變量受其他一個或多個變量影響的程度,為預測提供科學依據高爾頓:回歸和回歸線如何得到回歸線--局部平均在散點圖上得到一系列(xj,yj)(j表示散點圖從左往右的第j個小區間)對應的數據點如果這些點足夠多,則可以得到一條光滑的曲線---回歸線的近似線回歸線是局部平均的結果回歸分析概述如何得到回歸線---函數擬合,基本思路首先,通過散點圖觀察變量之間的統計關系,得到對回歸線形狀(線性關系或非線性關系)的直觀認知,并確定一個能夠反映和擬合這種認知且最簡潔的(參數最少的)數學形式(線性函數或非線性函數),即回歸模型其次,利用樣本數據在一定的統計擬合準則下,估計出回歸模型中的各個參數,得到一個確定的回歸方程最后,對回歸方程進行各種檢驗,判斷該方程是否真實地反映了事物總體間的統計關系回歸分析概述回歸分析的一般步驟確定回歸分析中的解釋變量x和被解釋變量y確定回歸模型建立回歸方程對回歸方程進行各種檢驗利用回歸方程進行預測等線性回歸分析和線性回歸模型觀察被解釋變量y和一個或多個解釋變量xi的散點圖當發現y與xi

之間呈現出顯著的線性關系時,則應采用線性回歸分析的方法,建立y關于xi的線性回歸模型根據解釋變量的個數,線性回歸模型可分為:一元線性回歸模型,對應一元線性回歸分析多元線性回歸模型,對應多元線性回歸分析線性回歸分析和線性回歸模型一元線性回歸模型一元線性回歸模型是指只有一個解釋變量的線性回歸模型,用于揭示被解釋變量與另一個解釋變量之間的線性關系對應一條回歸直線線性回歸分析和線性回歸模型多元線性回歸模型多元線性回歸模型是指含有多個解釋變量的線性回歸模型,用于揭示被解釋變量與其他多個解釋變量之間的線性關系對應一個回歸平面線性回歸分析和線性回歸模型參數的普通最小二乘估計對于一元線性回歸方程對于多元線性回歸方程回歸方程的統計檢驗回歸方程的統計檢驗,主要包括:回歸方程的擬合優度檢驗回歸方程的顯著性檢驗回歸系數的顯著性檢驗殘差分析擬合優度檢驗:檢驗樣本數據點聚集在回歸線周圍的密集程度,評價回歸方程對樣本數據的擬合基本思路:y的各觀測值與均值的總差異源于兩方面解釋變量x取值不同其他隨機因素表述為:離差平方和=回歸平方和+剩余平方和回歸方程的統計檢驗擬合優度檢驗:檢驗樣本數據點聚集在回歸線周圍的密集程度,評價回歸方程對樣本數據的擬合對于一元線性回歸方程:R2統計量R2的取值在0~1之間。R2越接近1,說明回歸方程對樣本數據點的擬合優度越高;R2越接近0,說明回歸方程對樣本數據點的擬合優度越低離差平方和=回歸平方和+剩余平方和SST=SSR+SSE回歸方程的統計檢驗擬合優度檢驗:檢驗樣本數據點聚集在回歸線周圍的密集程度,評價回歸方程對樣本數據的擬合對于多元線性回歸方程:調整的R2統計量調整的R2的取值在0~1之間為什么采用調整的R2?剔除解釋變量增加帶來的“虛假”擬合離差平方和=回歸平方和+剩余平方和SST=SSR+SSE回歸方程的顯著性檢驗回歸方程的顯著性檢驗:檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著,用線性模型來描述它們之間的關系是否恰當對于一元線性回歸方程原假設H0:β1=0,即回歸系數與零無顯著差異,意味著:當回歸系數為零時,無論x的取值如何變化都不會引起y的線性變化,x無法解釋y的線性變化,即它們之間不存在線性關系檢驗統計量:F統計量計算檢驗統計量的觀測值和對應的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,回歸系數與零存在顯著差異,被解釋變量y與解釋變量x的線性關系顯著,可以用線性模型描述和反映它們之間的關系;反之回歸方程的顯著性檢驗回歸方程的顯著性檢驗:對于多元線性回歸方程原假設H0:β1=β2=…=βp=0,即各個偏回歸系數同時與零無顯著差異,意味著:當偏回歸系數同時為零時,無論各個x取值如何變化都不會引起y的線性變化,所有x無法解釋y的線性變化,y與x的全體不存在線性關系檢驗統計量:F統計量計算檢驗統計量的觀測值和對應的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,偏回歸系數不同時為零,被解釋變量y與解釋變量x的全體的線性關系顯著,可以用線性模型描述和反映它們之間的關系;反之回歸系數的顯著性檢驗回歸系數的顯著性檢驗:研究回歸方程中的每個解釋變量與能否有效地解釋被解釋變量的線性變化,它們能否保留在線性回歸方程中對于一元線性回歸方程原假設H0:β1=0,即回歸系數與零無顯著差異,意味著:當回歸系數為零時,無論x取值如何變化都不會引起y的線性變化,x無法解釋y的線性變化,它們之間不存在線性關系檢驗統計量:計算檢驗統計量的觀測值和對應的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為回歸系數與零有顯著差異,被解釋變量y與解釋變量x的線性關系顯著,x應該保留在回歸方程中;反之回歸系數的顯著性檢驗回歸系數的顯著性檢驗:對于多元線性回歸方程原假設H0:βi=0,即回歸系數與零無顯著差異,意味著:當回歸系數為零時,無論xi取值如何變化都不會引起y的線性變化,xi無法解釋y的線性變化,它們之間不存在線性關系檢驗統計量:計算檢驗統計量的觀測值和對應的概率P-值決策:若概率P-值小于給定的顯著性水平α,則應拒絕原假設,認為回歸系數與零有顯著差異,被解釋變量y與解釋變量xi的線性關系顯著,xi應該保留在回歸方程中;反之殘差分析殘差分析的對象:殘差--指由回歸方程計算所得的預測值與實際樣本值之間的差距出發點:如果回歸方程能夠較好地反映被解釋變量的特征和變化規律,那么殘差序列中應不包含明顯的規律性和趨勢性主要任務:殘差是否為服從均值為零的正態分布殘差是否服從等方差的正態分布殘差序列是否獨立探測樣本中的異常值殘差分析殘差均值為零的正態性分析繪制殘差圖殘差的獨立性分析殘差序列應滿足cov(εi,εj)=0(i≠j),表示殘差序列的前期和后期之間不存在相關關系,即不存在自相關殘差序列存在自相關會帶來許多問題如果殘差的均值為零,殘差圖中的點應在縱坐標為零的橫線上下隨機散落殘差分析殘差的獨立性分析工具繪制殘差序列圖:殘差隨著時間的推移不應呈現規律性計算殘差的自相關系數DW檢驗:推斷小樣本序列是否存在自相關殘差分析異方差分析解釋變量取怎樣的值,對應殘差的方差都應相等,方差不應隨解釋變量或被解釋變量預測值的變化而變化;否則認為出現了異方差現象當存在異方差時,參數的最小二乘估計不再是最小方差無偏估計異方差分析的工具繪制殘差圖計算等級相關分析殘差分析探測樣本中的異常值通常異常值是指那些遠離均值的數據點,對回歸方程的參數估計有較大影響,應盡量找出它們并加以排除被解釋變量y和解釋變量x中都有可能出現異常值異常值的探測方法一般方法計算標準化殘差:絕對值大于3對應的觀測值為異常值學生化殘差:絕對值大于3對應的觀測值為異常值剔除殘差:在計算第i個觀測的殘差時,用剔除該觀測后剩余的n-1個觀測擬合回歸方程,并計算第i個觀測的預測值和相應的殘差。這個殘差與第i個觀測無關,不受第i個觀測y值是不是異常值的影響,稱為剔除殘差剔除殘差更能如實反映第i個觀測的y的異常性絕對值大于3對應的觀測值為異常值多元回歸分析中的其他解釋變量的篩選問題并非引入的解釋變量越多越好,有必要采取一些策略對解釋變量引入回歸方程加以控制和篩選解釋變量篩選的一般策略向前篩選:解釋變量不斷進入回歸方程的過程向后篩選:解釋變量不斷剔除出回歸方程的過程逐步篩選:向前篩選和向后篩選策略的綜合多元回歸分析中的其他變量的多重共線性問題多重共線性:是指解釋變量之間存在線性相關關系的現象解釋變量間高度的多重共線性會給回歸方程帶來許多影響測度解釋變量間的多重共線性一般方式容忍度:方差膨脹因子:取值范圍在0~1之間,越接近0,表示多重共線性越強;越接近1,表示多重共線性越弱方差膨脹因子的取值大于等于1。解釋變量間的多重共線性越弱,VIF越接近1;解釋變量間的多重共線性越強,VIFi越大通常,如果VIFi大于等于10,說明解釋變量xi與方程中其余解釋變量之間有嚴重的多重共線性線性回歸分析的基本操作和應用舉例

線性回歸分析的基本操作和應用舉例核心操作回歸方程的檢驗和殘差分析線性回歸分析的基本操作和應用舉例帶虛擬自變量的回歸分析示例生成虛擬自變量:是男性嗎最后得到的估計的回歸方程:進一步:曲線估計曲線估計:解決本質線性關系的回歸問題例如:曲線估計示例和操作第10章SPSS的聚類分析聚類分析的一般問題層次聚類K-Means聚類聚類分析的一般問題聚類分析:研究“物以類聚”問題的多元統計分析方法聚類分析:是一種建立分類的多元統計分析方法能夠將一批觀測(或變量)數據根據其諸多特征,按照在性質上的親疏程度,在沒有先驗知識的情況下進行自動分類—聚類解類內部個體特征具有相似性,不同類間個體特征的差異性較大示例:聚類分析的一般問題聚類分析中“親疏程度”的度量--個體間差異程度的測度:距離先將每個觀測數據看成p維(p個聚類變量)空間上的一個點數值型變量個體間距離的常見計算方式歐氏距離平方歐氏距離切比雪夫距離聚類分析的一般問題二值變量個體間距離的計算方式簡單匹配系數Jaccard系數聚類分析的一般問題聚類分析的幾點說明所選擇的變量應迎合聚類的分析目標各變量的變量值不應有數量級上的差異各變量間不應有較強的線性相關關系層次聚類層次聚類的兩種類型Q型聚類:對觀測進行聚類,使具有相似特征的觀測聚集在一起,使差異性大的觀測分離開來R型聚類:對變量進行聚類,使差異性大的變量分離開來,具有相似性的變量聚集在一起可在相似變量中選擇少數具有代表性的變量參與其他分析,實現減少變量個數和變量降維的目的層次聚類層次聚類的常用方式:凝聚方式聚類首先,每個觀測個體自成一類然后,按照某種方法度量所有個體間的“親疏程度”,并將其中最“親密”的個體聚成一小類,形成n-1個類;接下來,再次度量剩余觀測個體和小類間的“親疏程度”,并將當前最親密的個體或小類再聚成一類;重復上述過程,不斷將所有個體和小類聚集成越來越大的類,直到所有個體聚到一起,形成一個最大的類為止可見,在凝聚方式聚類過程中,隨著聚類的進行,類內的“親密”程度在逐漸降低對n個觀測個體,通過n-1步可凝聚成一大類層次聚類個體與小類、小類與小類間“親疏程度”的常用度量方法個體與小類間的最近鄰距離:該個體與小類中每個個體距離的最小值個體與小類間的最遠鄰距離:該個體與小類中每個個體距離的最大值個體與小類間的組間平均鏈鎖:該個體與小類中每個個體距離的平均值個體與小類間的組內平均鏈鎖:該個體與小類中每個個體距離以及小類內各個體間距離的平均值層次聚類分析基本操作K-Means聚類K-Means聚類,也稱快速聚類,仍將數據看成p維空間上的點,以距離作為測度個體“親疏程度”的指標,算法效率高K-Means聚類分析的核心步驟如下:第一步,指定聚類數目K第二步,確定K個初始類中心點,一般方式:用戶指定方式系統指定方式第三步,根據距離最近原則進行分類依次計算每個數據點到K個類中心點的歐氏距離,并按照與K個類中心點距離最短的原則將所有觀測分派到K個分類中第四步,重新確定K個類中心點:均值點第五步,判斷是否已經滿足終止聚類分析的條件。若未滿足重復第三四步K-Means聚類K-Means重復多次迭代的目的K-Means聚類示例與操作第11章SPSS的因子分析因子分析概述因子分析的基本內容因子分析的基本操作及案例因子分析概述因子分析:以最少的信息丟失為前提,將眾多的原有變量綜合成較少的幾個綜合指標,名為因子因子分析的意義:實現變量降維因子的特點:因子個數遠遠少于原有變量的個數因子能夠反映原有變量的絕大部分信息因子之間的線性關系不顯著因子具有命名解釋性因子分析概述因子分析的數學模型矩陣形式的表示:F稱為因子,又稱為公共因子,fj(j=1,2,…,k)彼此不相關A稱為因子載荷矩陣,aij(i=1,2,…,p;j=1,2,…,k)稱為因子載荷,是第i個原有變量在第j個因子上的載荷ε稱為特殊因子,表示原有變量不能被因子解釋的部分,其均值為0,獨立于fj(j=1,2,…,k)p個原有變量x1,…,xp且每個變量(經標準化處理后)的均值為0,標準差均為1因子分析概述因子分析中的重要概念因子載荷aij在因子不相關的前提下,aij是變量xi與因子fj的相關系數,反映了變量xi與因子fj的相關程度因子載荷aij的平方反映了因子fj對解釋變量xi的重要作用和程度變量共同度即變量方差,是全部因子對變量xi方差解釋說明的比例,體現了全部因子對變量xi的解釋貢獻程度,越接近1越好,意味折變量xi方差丟失少因子的方差貢獻方差貢獻反映了因子fj對原有變量總方差的解釋能力。越高說明相應因子的重要性越高因子分析的基本內容因子分析的基本步驟因子分析的前提條件判斷分析原有變量是否存在相關關系,是否適合進行因子分析因子提取將原有變量綜合成少數幾個因子,是因子分析的核心內容使因子具有命名解釋性通過各種方法使提取出的因子實際含義清晰,使因子具有命名解釋性計算各觀測的因子得分通過各種方法計算各觀測在各因子上的得分,為進一步的分析奠定基礎因子分析的基本內容因子分析的前提條件判斷,方法:計算相關系數矩陣計算反映像相關矩陣矩陣第i行對角線上的元素為變量xi的MSAiMSAi值越接近1,意味著變量xi與其他變量間的相關性越強其他大多數元素的絕對值均較小,對角線上元素的值較接近1,說明變量的相關性較強,適合進行因子分析巴特利特球度檢驗原假設H0:相關系數矩陣是單位陣KMO檢驗,常用的KMO度量標準0.9以上非常適合;0.8適合;0.7一般0.6不太適合;0.5以下極不適合因子分析的基本內容因子提取和因子載荷矩陣的求解因子分析的關鍵是根據樣本數據求解因子載荷矩陣因子載荷矩陣的最常用求解方法:主成分分析法主成分分析法:通過坐標變換,將原有的p個相關變量xi(標準化后)做線性組合,轉換成另一組不相關的變量yi:其中:因子分析的基本內容因子載荷矩陣的求解原則根據上述原則確定的變量y1,y2,y3,…,yp依次稱為原有變量x1,x2,x3,…,xp

的第1,2,3,…,p個主成分y1在總方差中所占比例最大,體現原有變量方差的能力最強y2,y3,…,yp在總方差中所占比例依次遞減,體現原有變量方差的能力依次減弱因子分析的基本內容因子載荷矩陣的求解原則從幾何意義的角度理解,例如:因子分析的基本內容因子載荷矩陣的求解的基本步驟因子載荷陣因子分析的基本內容因子載荷矩陣的求解的基本步驟包含k個因子的因子載荷矩陣:確定因子個數k根據特征值λj確定因子數:選取特征值大于1的因子,即應至少解釋1個方差

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論