




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選優質文檔-傾情為你奉上精選優質文檔-傾情為你奉上專心-專注-專業專心-專注-專業精選優質文檔-傾情為你奉上專心-專注-專業SPSS數據分析高級應用培訓班培訓資料(僅供培訓使用)目 錄 TOC o 1-3 h z u 第1講 統計工具與SPSS軟件1.1 統計工具含義統計學是通過搜索、整理、分析數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其中用到了大量的及其它學科的專業知識,它的使用范圍幾乎覆蓋了和的各個領域。統計工具是實現上述過程的手段與方法,包括理論方法與計算軟件。1.2 統計工具作用在古代,治國安天下多數通過邏輯分析和簡單計算就能滿足,在現今社會,單純靠邏輯
2、分析和推斷無法滿足實際需要,人們往往需求的是隱藏在表面之后的規律,需要借助統計工具加以實現,比如:利用C-D生產函數來判斷國家的GDP中,多大程度受固定資產影響,多大程度受人力資本影響,科技進步有多大。諸如此類問題都需要通過統計工具實現,由此,可以得出統計工具的主要作用就是實現人們想了解到的、可以了解到的那些潛在的關系和規律。1.3運用統計工具注意事項在說明統計工具在使用中需注意問題之前,舉個實際例子?!纠?.1】有人說:“統計方法沒什么用,我想知道明天幾點幾分下雨,統計方法根本無法實現”。這樣的說法正確嗎?分析與解答:該種說法錯誤,從供給和需求角度進行分析。需求方面:實際生活中,人們期望獲取
3、一具體點值,屬于微觀問題供給方面:利用統計方法得到的點估計屬于宏觀問題,只有在大量重復情況下才能實現,舉點估計的評價標準為例說明(課堂講授)。從供給和需求方面可以看出,統計工具是在滿足某些約束條件下得出的結果,具體在統計工具運用中需注意如下事項:1、注意統計工具滿足的基本假定;2、統計工具計算的結果一定存在誤差;3、只要不影響實際決策的誤差可以認為是統計上允許的誤差;4、統計結果往往具有實際意義,不要為了面子而濫用統計工具。1.4 統計工具與SPSS軟件關系SPSS軟件是一種實現理論計算方法,幫助統計研究者簡化計劃,提高工作效率的電腦軟件,通過該軟件可迅速實現描述性統計分析、確定性統計分析、隨
4、機統計分析等。第2講 SPSS入門2.1 SPSS歷史沿革SPSS是世界上最早的統計分析軟件,全稱為Statistical Package for Social Science,也稱社會科學統計軟件。由的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究開發成功,同時成立了SPSS公司,并于1975年成立組織、在芝加哥組建了SPSS總部。1984年SPSS總部首先推出了世界上第一個統計分析軟件微機版本SPSS/PC+,開創了SPSS微機系列產品的開發方向,極大地擴充了它的應用范圍,并使其能很快地應用于、的各個領域。世界上
5、許多有影響的報刊雜志紛紛就SPSS的自動統計繪圖、數據的深入分析、使用方便、功能齊全等方面給予了高度的評價。隨著應用領域的不斷擴大,SPSS已經有原來的名字改為Statistics Product and Service Solution,即統計產品與服務解決方案。SPSS 15.0.1 - 2006年11月SPSS 16.0.2 - 2008年4月SPSS Statistics 17.0.1 - 2008年12月PASW Statistics 17.0.2 - 2009年3月PASW Statistics 17.0.3 - 2009年11月PASW Statistics 18.0.0 - 2
6、009年8月PASW Statistics 18.0.1 - 2009年12月PASW Statistics 18.0.2 - 2010年4月PASW Statistics 18.0.3 - 2010年9月IBM SPSS Statistics 19.0 - 2010年8月IBM SPSS Statistics 20.0 - 2011年8月IBM SPSS Statistics 21.0 - 2012年8月IBM SPSS Statistics 22.0 - 2013年8月2.2 SPSS基本界面安裝SPSS22.0之后,第一次啟動將出現如下界面。在點擊“取消”可出現以下常規界面。2.3 常規
7、功能設置通過“編輯”“選項”,獲取如下對話框對第一行命令逐一點開,會出現關于SPSS如阿年常規功能設置的所有界面(課堂演示)2.3 數據變量(詳細介紹在課堂上演示)2.3.1 計量尺度無論是觀測數據還是試驗數據,都需要度量。統計數據是對客觀現象進行計量的結果,按照對事物的精確程度,可將所采用的計量尺度有低級到高級分為:名義尺度、定序尺度和間隔尺度(又分為定距尺度和定比尺度)2.3.2 常量與變量常量分為數值型常量、字符型常量、日期型常量變量分為數值型變量、字符型變量、日期型變量。數值型變量包括:標準型、逗號型、圓點型、科學計數法型、美元型和自定義貨幣型。2.3.3 變量標簽變量標簽是對變量名進
8、一步解釋和說明,包括變量名標簽和變量值標簽。變量名標簽是對變量名含義的進一步解釋和說明,在SPSS界面中表現為“標簽”列。變量值標簽是對數值型變量各個取值的含義進行解釋和說明,尤其是定型數據,在SPSS界面中表現為“值”列。2.3.4 變量缺失值在調查問卷中,被調查者沒有填寫調查表要求填寫的某些數據或填寫的數據失真,造成缺失值。這些情況稱為數據缺失或數據不全,缺失或不完全的數據在統計分析中不能使用,需標出,在在SPSS界面中表現為“缺失”列。第3講 數據采集與整理3.1數據編輯器簡介數據編輯器主要由標題欄、當前數據欄、輸入數據欄和數據顯示區組成。3.2 數據文件的建立建立數據文件可通過如下兩種
9、方式實現:1、“文件”“新建”命令2、在啟動SPSS時選擇“輸入數據”選項數據錄入方法包括:按單元格輸入數據、按變量錄入數據、按觀測量錄入數據和輸入帶有變量標簽的數據。3.3 數據的編輯3.3.1 查看數據信息1、查看變量信息在數據編輯器窗口中切換到“變量視圖”區域查看變量信息或者執行菜單“應用程序”“變量”命令2、查看文件信息執行菜單“文件”“顯示數據文件信息”命令3.3.2 數據定位1、按個案序號自動定位執行菜單“編輯”“轉至個案”命令2、按變量值自動定位執行菜單“編輯”“查找”命令3.3.3 插入與刪除變量和觀測量插入變量可通過以下三種方式實現:1、通過數據編輯器窗口中相關快捷命令2、利
10、用鼠標右鍵完成3、執行菜單“編輯”“插入變量”命令刪除變量可通過以下兩種方式實現:1、利用鼠標右鍵完成2、執行菜單“編輯”“清除”命令觀測量(個案)的插入和刪除方法同變量類似,課堂演示。3.3.4 實用數據文件操作1、數據的打開和保存(略)2、數據排序(1)執行菜單“數據”“排序個案”命令(2)需要根據哪個變量排序,則單擊該變量“排序依據”(3)選擇“升序”還是“降序”(4)點擊“確定”3、數據文件的分解(1)執行菜單“數據”“拆分文件”命令(2)選擇不同的拆分方式:分析所有個案,不創建組(默認方式)、比較組或按組組織輸出(3)選擇不創建組(默認方式)、比較組或按組組織輸出需選取“分組方式”(
11、4)點擊“確定”4、數據文件的合并1、增加變量(1)執行菜單“數據”“合并文件”“添加變量”命令(2)選中所添加的變量后點擊“繼續”命令(3)點擊“確定”2、增加觀測值(1)執行菜單“數據”“合并文件”“添加個案”命令(2)選中所添加的變量后點擊“繼續”命令(3)點擊“確定”5、數據文件的轉置執行菜單“數據”“變換”命令3.4 單選題、多選題與開放題的數據錄入,檢查異常值1、單選題的數據錄入通過具體例子說明【例3.1】對馬航失聯客機的結果有如下幾種,選擇最可能的一種?( )A 墜入海洋 B 恐怖分子劫機 C 被海盜劫機 D 政府行為具體實現方法有兩種:(1)二分法。對每個選項賦值“0”或者“1
12、”(2)對每個選項分別賦值“1,2,3,4”2、多選題的數據錄入(1)多重二分法處理方法同單選題數據錄入的(1),此處略。(2)多重分類法若假定最多選2個,先對對每個選項分別賦值“1,2,3,4”,后給出2個備選變量即可。若沒有限制選項個數,則將所有的備選變量給出。3、開放題的錄入開放型問題的處理一般不需要編碼的操作,當然也不需要輸入到SPSS中進行分析處理,只能通過調查者的匯總歸納概括,因此開放型問題在問卷中應該盡可能的減少;原因在于一是不便于分析處理,二是開放型問題的回答率一般較低。4、異常值的查找離群值:(箱圖)值與框的上下邊界的距離在1.5倍框的長度到3倍框的長度之間的個案。框的長度是
13、內距。極端值:(箱圖)值距離框的上下邊界超過3倍框的長度的個案。框的長度是內距在回歸模型診斷里面,一般稱預測值與實際值的偏差為殘差,按照需要取一殘差,再按照某種標準取一個閥值來限定異常點,只要那個點的殘差大于閥值,就可以認為它是異常點。在時間序列分析中,異常值的統計檢驗方法可以通過殘差的正態性檢驗實現。3.5 SPSS函數SPSS函數是一個常用程序(rountine),并且利用一個或多個自變量(參數)來執行。每個SPSS函數均有一個關鍵名稱(keywordname),且絕不能寫錯。通常,函數的格式為:函數名稱(自變量,自變量,),某些函數可能只含有一個自變量,而有些函數則可能含有多個自變量,當
14、一個函數含有多個自變量時,各自變量間用逗號(,)隔開,而函數的自變量通常又可分為以下三種:1)常數,如SQRT(100):2)變量名稱,如MEAN(VAR1,VAR2,VAR3);3)表達式,如MIN(30,SQRT(100)??傊?,SPSS函數和我們平時EXCEL里面函數格式規則并無差別。SPSS提供了180多種函數,共可分為十多類。和EXCEL一樣,我們也不可能記住所有函數,只要知道一些常用函數,至于其他函數要用的時候再去查找也不遲,下面本人將列舉一些常用函數:1 算術函數函數說明范例(x=2.6,y=3)ABS(numbexpr)絕對值函數ABS(y-x)=0.4RND(numbexpr
15、)四舍五入函數RND(x)=3TRUNC(numbexpr)取整函數TRUNC(x)=2SORT(numbexpr)平方根函數SQRT(y)=1.71MOD(numbexpr,modulus)求算兩數相除后的余數MOD(y,x)=0.4EXP(numbexpr)以e為底的指數函數EXP(y)=20.09LG10(numbexpr)以10底的對數函數LG10(x*10)=1.41LN(numbexpr)自然對數函數LN(y)=1.12 統計函數函數說明范例(X1=2X2=5X3=8)MEAN(numexpr,numexpr,)自變量的平均值MEAN(X1,X2,X3)=5MIN(value, v
16、alue,)自變量的最小值MIN(X1,X2,X3)=1MAX(value, value,)自變量的最大值MAX(X1,X2,X3)=8SUM(numexpr,numexpr,)求和SUM(X1,X2,X3)=15SD(numexpr,numexpr,)求標準差SD(X1,X2,X3)=3VARIANCE(numexpr,numexpr,)求方差VAR(X1,X2,X3)=9CFVAR(numexpr,numexpr,)求變異系數CFVAR(X1,X2,X3)=0.6 3 缺失值函數函數說明范例MISSING(variable)若變量缺失,則為T或1,否則為F或0MISSING(X1)=1MI
17、SSING(X2)=1MISSING(X3)=0SYSMIS(numvar)若變量是系統缺失值則為T或1,如為自定缺失或非缺失則為F或0SYSMIS(X1)=0SYSMIS(X2)=1SYSMIS(X3)=0NMISS(variable,)缺失值個數NMISS(X1,X2,X3)=2NVALID(variable,)有效值個數NVALID(X1,X2,X3)=1VALUE(variable,)忽略自定義缺失值,當作非缺失VALUE(X1)=X1注:X1為使用者界定缺失值,X2為系統缺失值,X3為非缺失值4 字符串型函數函數說明范例ANY(test,value,value)若自變量1和后面自變量
18、竄相同則為真,記為1ANY(is, this)=0ANY(is,this,is)=1CONCAT(strexpr,strexpr)將自變量連成一個新自變量CONCAT(th,is)=thisINDEX(haystack,needle,divisor)Divisor在needle最左側開始出現的位置INDEX(this is,is)=3LENGTH(strexpr)自變量所含文字的個數(包括特殊字符和空格)LENGTH(th is)=5LOWER(strexpr)自變量中的大寫字母改為小寫字母LOWER(This)=thisUPCASE(strexpr)將自變量中的小寫字母改為大寫字母UPCAS
19、E(this)=THISLTRIM(strexpr,char)在strexpr開始處去除char所形成的常量,如無char則去除strexpr左側的空格LTRIM(this,t)=hisLTRIM(this,is)=thLTRIM( this)=thisNUMBER (strexpr,format)當自變量為數字的文字變量時,按文字變量指定格式轉換為數字變量NUMBER(23,F8.1)=2.3NUMBER(23,F8.0)=23RANGE(test,lo,hi,lo,hi)如果自變量1的值包含在自變量集lo至hi的范圍內,則為T或1RANGE(c,a,k)=TSTRING(strexpr,f
20、ormat)按指定格式將自變量轉換為文字型變量STRING(3+4,F8.2)=7.00SUBSTR(sterxpr,pos,length)從strexpr子竄的第pos位置開始取length的字符串長度SUBSTR(this is,6,2)=is5 時間日期函數函數說明范例DATA.DMY(d,m,y)與指定日月年對應的日期DATA.DMY(3,5,99)=05/03/99DATA.MDY(m,d,y)與指定月日年對應的日期DATA.MDY(5,3,99)=05/03/99DATA.YRDA(y,d)與指定年日對應的日期DATA.YRDA(99,35)=02/04/99DATA.QYR(q,
21、y)指定的季節年份對應的日期DATA.QYR(2,99)=04/01/99DATA.MOYR(m,y)與指定的月年度對應的日期DATA.MOYR(5,99)=05/01/99DATA.WKYR(w,y)與指定的周年度對應的日期DATA.WKYR(38,98)=9/17/98注:1. 要正確顯示以上函數值,必須先賦予其SPSS得日期型變量(DATA)格式,假設以上日期用mm/dd/yy格式顯示,時間則用hh:mm:ss格式表示 2. 1=d=31、1=m=12、1=w=52、1=q=4(六)其他函數SPSS除了上述函數外,尚有日期和時間轉換函數(YOMODACTMIESDAYSCTIMEHOUR
22、SMDAYS等)、連續幾率密度函數(CDFBINOMCHISQCDFEXPLOGISTIC等),此外還有NORMAL(stddev)可產生平均數為0,標準差為stddev的正態分布隨機數字。UNIFORM(max)可產生平均數為0與max間呈均等分布的隨機數字。第4講 描述性統計分析4.1 常用統計量4.1.1 描述集中趨勢的統計量(將融合在后續演示中)1、均值2、中位數3、眾數4、百分位數4.1.2 描述離散程度的統計量(將融合在后續演示中)1、樣本方差2、樣本標準差3、均值標準差4、極差5、離散系數4.1.3 描述分布形態的統計量(將融合在后續演示中)1、偏度系數(以眾數為衡量指標)2、峰
23、度系數(高矮) 全方位的刻畫和定義一組數據,均數、方差、風度系數偏度系數4.2 常用統計表4.2.1 在線處理分析報告(OLPA)該過程對于按一個或多個分組變量所分的組,計算所考察變量的總值、均值及其他統計量,并且以分層的方式輸出結果,表中每一層是依據一個分組變量的結果輸出。執行菜單“分析”“報告”“OLPA多維數據集”命令4.2.2 個案摘要報告個案摘要報告又成觀測量摘要報告,主要用于按指定分組統計不同水平的交叉匯編,對變量進行記錄列表,并計算相應統計量。可通過“個案匯總”命令來預覽和打印數據。執行菜單“分析”“報告”“個案匯總”命令4.2.3 行形式摘要報告和列形式摘要報告(略,學員可獨立
24、學習)專門用于生成復雜報表,他們均可以對輸出表格進行精密定義,以滿足客戶的各種嚴格要求,且輸出格式為文本格式4.3 頻數分析頻數分析是描述性統計分析中最常用的方法之一,可以通過對數據的分布趨勢進行初步的分析,以便掌握數據分布的特征,對數據作進一步分析。執行菜單“分析”“描述統計”“頻率”命令在菜單欄中選擇“分析描述統計頻率”命令,打開如下所示的對話框。 選擇“分組后的人均面積”作為需要分析的變量,單擊按鈕進入“變量”文本框。由于本案例中不要求計算其他統計量,所以不用在“統計量”中進行相關設置,只需在“圖表”中選擇圖形類型即可。選擇“直方圖”項,激活“在直方圖上方顯示正態曲線”復選框。單擊“確定
25、”按鈕,系統開始分析。4.4 描述性分析通過此過程可對變量進行描述性統計量的分析,計算并列出一系列相應的指標,包括平均值、算數和、標準差、最大值、最小值、方差、全距、和均值標準誤差等,并可以將原始數據轉換成標準Z分布存入數據庫,在數據集中生成一個新的變量,該變量自動命名為“Z+原變量名稱”。執行菜單“分析”“描述統計”“描述”命令,在執行該命令前,執行菜單“數據”“拆分文件”“比較組”命令打開數據文件,按“班級”數量對數據進行分組。從菜單欄中選擇“數據拆分文件”命令,打開“拆分文件”對話框。選擇“比較組”按鈕,然后將“班級”變量選入“分組方式”列表框。單擊“確定”按鈕,完成分組。打開下圖的“描
26、述性”對話框,從變量列表框中選擇變量年齡、體重和身高。單擊按鈕將選中的變量移動到“變量”文本框,并且選擇“將標準化得分另存為變量”復選框,即要求以變量形式保存Z分值。選擇完變量后,單擊“選項”選項,進行統計量的選擇。在本例中,選擇范圍、最大值、最小值、均值、標準差和方差。單擊“繼續”按鈕確認并返回主對話框。設置完畢后,單擊“確定”按鈕,系統將執行描述性分析。4.5 探索性分析探索性分析可以對變量進行更為深入詳盡的統計分析,主要用于當對數據的性質、分布特點等完全不知道的時候,檢查數據是否有錯誤,獲得數據基本特征,以及對數據規律作初步觀察。在常用描述性統計指標的基礎上,探索性分析增加了有關數據詳細
27、分布特征的文字與圖形描述,還可以為方差齊性為目的的變量變換提供線索。執行菜單“分析”“描述統計”“探索”命令選擇“分析統計描述探索”命令,打開如下所示的“探索”對話框。 選擇height變量進入“因變量列表”框作為待摘要變量;選擇area變量進入“因子列表”框作為分組變量。在輸出欄中,選擇“兩者都”項。單擊“統計量”按鈕,打開統計量對話框。選中描述性、M-估計量、界外值和百分位數復選框,然后單擊“繼續”按鈕,確認選擇并返回“探索”對話框。單擊“繪制”按鈕, “探索:圖”對話框。選擇“箱圖”欄中的“按因子水平分組”項,選擇獎分組結果顯示在同一張圖上;選擇“描述性”欄內的“莖葉圖”復選框,輸出莖葉
28、圖,同時選中“帶檢驗的正態圖”復選框,要求進行正態性檢驗;選擇“伸展與級別Levene檢驗”中的“冪估計”項估計冪次使組間方差齊次。單擊“繼續”按鈕,確認并選擇返回“探索”對話框。在“探索”對話框中單擊“確定”按鈕,完成設置并執行探索性分析。4.6 常用統計圖(課堂現場演示)常用的統計圖形包括條形圖、3-D條形圖、面積圖、線圖、餅圖、高低圖、箱圖、誤差條形圖、人口金子塔圖、散點/點狀圖、直方圖等。第5講 一般推斷性統計分析5.1 統計推斷理論(課堂現場講授)5.2 均值比較5.2.1 均值過程均值過程傾向于對樣本進行描述,他可以對需要比較的各組計算描述指標進行檢驗前的預分析。執行菜單“分析”“
29、比較平均值”“平均值”命令在數據管理窗口中打開house. Sav數據文件。從菜單欄中選擇“分析比較均值均值”命令,打開如下所示的“均值”對話框。在“均值”對話框左側變量列表中選中price和sale變量,單擊按鈕將其移入“因變量列表”列表框中,并將district變量移入“自變量列表”列表框。單擊“選項”按鈕,打開“均值:選項”對話框,如下圖所示。在“選項”對話框中選擇需要分析的統計量,本例中選擇統計項目。從“單元格統計量”列表中,選中均值、標準差、最小值、最大值和個案數5個統計量,然后單擊“繼續”按鈕確認,返回“均值”對話框。在“均值”對話框中,單擊“確定”按鈕,完成設置并執行操作。5.2
30、.2 單樣本t檢驗用樣本均數代表的未知總體均數和已知總體均數進行比較,來觀察此組樣本與總體的差異性。既是單樣本本身無法比較,進行的是均數與已知總體均數間的比較。1基本假定(1) 樣本來自正態或近似正態總體;(2) 已知總體均值,可得到樣本均值和標準差2 t檢驗統計量 其中 為樣本平均數;為總體平均數;為樣本標準差;n為樣本容量;t為樣本平均數與總體平均數的離差統計量;3 計算原理(1) 建立假設,確定檢驗水平 H0: = 0 H1: 0; (2) 計算統計量;(3) 查相應的界值表,確定p值,下結論;4 SPSS實例演示執行菜單“分析”“比較平均值”“單樣本t檢驗”命令打開數據文件pulse.
31、sav之后,從菜單欄選擇“分析比較均值單樣本T檢驗”命令,打開如下所示的“單樣本T檢驗”對話框。將變量pulse選入“檢驗變量”列表框。在“檢驗值”框中輸入已知母體平均數72。單擊“確定”按鈕,完成設置并執行上述操作。5.2.3獨立樣本t檢驗 “獨立樣本 T 檢驗”過程比較兩組個案的均值。理想的情況下,對于此檢驗,主體應隨機地分配到兩個組中,以便響應的任何差別是由于處理(或缺少處理)而非其他因素造成的。例如而比較男性和女性的平均收入則不屬于此情況人不是隨機指定為男性或女性的。在這些情況下,應確保其他因素中的差別沒有掩飾或夸大均值中的顯著性差異。平均收入的差值還可能受諸如教育之類的因素影響(而非
32、僅僅受性別影響)。1 基本假定(1) 兩個樣本獨立; (2) 樣本來自的正態總體服從正態分布;2 獨立樣本t檢驗統計量t分兩種情況:(1) 兩總體方差未知且相等 (2) 兩總體方差未知且不等 , 3 計算原理設總X1服從正態分布N(1,12),總體X2服從正態分布N(2,22),分別從這兩個總體中抽取樣本(x11,x12,x13,x1n)和(x21,x22,x23,x2n),且兩樣本相互獨立,要求檢驗1和2是否有顯著性差異。(1) 建立假設,確定檢驗水平;H0:1 = 2 H1:1 2; (2) 判斷兩總體方差是否相等,F檢驗法(spss會自動檢驗方差是否相等),若F值所對應的P值顯著水平,則
33、認為總體方差不等,否則相等;(3) 構造t統計量;(4) 根據t值和p值做出判斷,若p值顯著水平,拒絕原假設,認為兩總體均值存在差異;否則接受。4 實例演示執行菜單“分析”“比較平均值”“獨立樣本t檢驗”命令執行“分析比較均值獨立樣本T檢驗”命令,打開如下所示的“獨立樣本T檢驗”對話框。將變量score選入“檢驗變量”列表框中作為檢驗變量。將變量sex選入“分組變量”文本框中作為分組變量。單擊“定義組”按鈕。打開 “定義組”對話框。在“組1”后的文本框中輸入1,在“組2”后的文本框中輸入2,然后單擊“繼續按鈕”,返回主對話框。單擊“確定”按鈕,結束設置并執行操作。5.2.4配對樣本t檢驗配對樣
34、本:是指對同一樣本進行兩次測試所獲得的兩組數據,或對兩個完全相同的樣本在不同條件下進行測試所得的兩組數據。配對樣本t檢驗:根據樣本數據對兩個配對樣本來自的兩配對總體的均值是否有顯著差異進行推斷。1 基本假定(1) 兩樣本應該是配對的;既是兩樣本的觀察數目相同,且兩樣本的觀察值的順序不能隨意更改; (2) 樣本來自的兩個總體應該服從正態分布;2 計算原理設總X1服從正態分布N(1,12),總體X2服從正態分布N(2,22),分別從這兩個總體中抽取樣本(x11,x12,x13,x1n)和(x21,x22,x23,x2n),且樣本兩兩配對,要求檢驗1和2是否有顯著性差異;(1) 引進一個新的隨機變量
35、Y= X1-X2,對于樣本值為(y1,y2, yn),其中yi=x1i-x2i(i=1,2,n),檢驗的問題轉化為單樣本t檢驗,既是檢驗Y的均值是否與0有顯著差異;(2) 建立假設,H0:Y = 0;(3) 構造t統計量;(4) 根據t值和P值做出推斷,若P值0;一般地,|r|0.95 存在顯著性相關; |r|0.8 高度相關;0.5|r|0.8 中度相關;0.3|r|0.5 低度相關;|r|0.3 關系極弱,認為不相關2):如果x,y變化的方向相反,如吸煙與肺功能的關系,r0;3)無線性相關:r=0。如果變量Y與X間是,則r=1或r=-1;如果變量Y與X間是統計關系,則-1rMSw(遠遠大于
36、)。MSb/MSw比值構成F分布。用F值與其臨界值比較,推斷各樣本是否來自相同的總體。1 基本假定(1) 各處理條件下的樣本是的。(2) 各處理條件下的樣本是的,否則可能出現無法解析的輸出結果。(3) 各處理條件下的樣本分別來自正態分布總體,否則使用非分析。(4) 各處理條件下的相同,即具有齊效性2 計算原理 (1) 建立檢驗假設;H0:多個樣本總體均值相等;H1:多個樣本總體均值不相等或不全等。檢驗水準為0.05。(2) 計算檢驗統計量F值;(3) 確定P值并作出推斷結果。3 應用條件(1) 各樣本是相互獨立的隨機樣本(2) 各樣本均來自正態分布總體(3) 各樣本的總體方差相等,即具有方差齊
37、性(4) 在不滿足正態性時可以用非參數檢驗5.5.1 單因素方差分析1 單因素方差分析概念理解步驟是用來研究一個的不同水平是否對觀測變量產生了顯著影響。這里,由于僅研究單個因素對觀測變量的影響,因此稱為。例如,分析不同施肥量是否給農作物產量帶來顯著影響,考察地區差異是否影響婦女的生育率,研究學歷對工資收入的影響等。這些問題都可以通過單因素方差分析得到答案。的第一步是明確觀測變量和。例如,上述問題中的觀測變量分別是農作物產量、婦女生育率、工資收入;分別為施肥量、地區、學歷。的第二步是剖析觀測變量的方差。方差分析認為:觀測變量值的變動會受控制變量和兩方面的影響。據此,將觀測變量總的分解為組間離差平
38、方和和組內離差平方和兩部分,用數學形式表述為:SST=SSA+SSE。的第三步是通過比較觀測變量總各部分所占的比例,推斷是否給觀測變量帶來了顯著影響。2 原理總結容易理解:在觀測變量總中,如果組間離差平方和所占比例較大,則說明觀測變量的變動主要是由引起的,可以主要由控制變量來解釋,控制變量給觀測變量帶來了顯著影響;反之,如果組間離差平方和所占比例小,則說明觀測變量的變動不是主要由控制變量引起的,不可以主要由控制變量來解釋,控制變量的不同水平沒有給觀測變量帶來顯著影響,觀測變量值的變動是由隨機因素引起的。3 計算原理(1) 提出原假設:H0無差異;H1有顯著差異(2) 選擇:方差分析采用的檢驗統
39、計量是,即F值檢驗。(3) 計算檢驗統計量的和概率P值:該步驟的目的就是計算檢驗統計量的觀測值和相應的概率P值。(4) 給定,并作出決策4 的進一步分析在完成上述的基本分析后,可得到關于是否對觀測變量造成顯著影響的結論,接下來還應做其他幾個重要分析,主要包括方差齊性檢驗、多重比較檢驗。(1) 方差齊性檢驗方差齊性檢驗是對不同水平下各觀測變量是否相等進行檢驗。前面提到,不同水平下觀測變量總體方差無顯著差異是方差分析的前提要求。如果沒有滿足這個前提要求,就不能認為各相同。因此,有必要對方差是否齊性進行檢驗。SPSS中,方差齊性檢驗采用了方差同質性(homogeneity of variance)方
40、法,其原假設是:各水平下觀測變量總體的方差無顯著差異。(2) 多重比較檢驗單因素方差分析的基本分析只能判斷是否對觀測變量產生了顯著影響。如果確實對觀測變量產生了顯著影響,進一步還應確定控制變量的不同水平對觀測變量的影響程度如何,其中哪個水平的作用明顯區別于其他水平,哪個水平的作用是不顯著的,等等。例如,如果確定了不同施肥量對農作物的產量有顯著影響,那么還需要了解10公斤、20公斤、30肥料對農作物產量的影響是否有差異,其中哪種施肥量水平對提高農作物產量的作用不明顯,哪種施肥量水平最有利于提高產量等。掌握了這些重要的信息就能夠幫助人們制定合理的施肥方案,實現低投入高產出。多重比較檢驗利用了全部觀
41、測變量值,實現對各個水平下觀測變量總體的逐對比較。由于多重比較檢驗問題也是問題,因此也遵循假設檢驗的基本步驟。檢驗統計量的構造方法1)LSD方法LSD方法稱為最?。↙east Significant Difference)法。最小法的字畫就體現了其檢驗敏感性高的特點,即水平間的均值只要存在一定程度的微小差異就可能被檢驗出來。正是如此,它利用全部觀測變量值,而非僅使用某兩組的。LSD方法適用于各總體方差相等的情況,但它并沒有對犯一類錯誤的概率問題加以有效控制。2)S-N-K方法S-N-K方法是一種有效劃分相似性子集的方法。該方法適合于各水平觀測值個數相等的情況,(3) 其他檢驗1)先驗對比檢驗在
42、多重比較檢驗中,如果發現某些水平與另外一些水平的均值差距顯著,如有五個水平,其中x1、x2、x3與x4、x5的均值有顯著差異,就可以進一步分析比較這兩組總的均值是否存在顯著差異,即1/3(x1+x2+x3)與1/2(x4+x5)是否有顯著差異。這種事先指定各均值的系數,再對其進行檢驗的分析方法稱為先驗對比檢驗。通過先驗對比檢驗能夠更精確地掌握各水平間或各相似性子集間均值的差異程度。2)趨勢檢驗當為時,趨勢檢驗能夠分析隨著控制變量的變化,觀測變量值變化的總體趨勢是怎樣的,是呈現線性變化趨勢,還是呈二次、三次等多項式變化。通過趨勢檢驗,能夠幫助人們從另一個角度把握不同水平對觀測變量總體作用的程度。
43、5 實例演示執行菜單“分析”“比較平均值”“單因素ANOVA”命令在數據管理窗口中打開district and sale .sav 數據文件。從主菜單欄中選擇“分析比較均值單因素ANOVA”命令,打開如下所示的“單因素 方差分析”對話框。將“銷售額”作為觀測變量選入“因變量列表”框。將“廣告形式”作為控制變量選入“因子”文本框??刂谱兞坑袔讉€不同的取值,就表示控制變量有幾個水平。單擊“對比”按鈕,然后從打開的對比對話框中的“度”下拉列表框中選擇“線性”選項。單擊“繼續”按鈕確認,返回主對話框。在 “單因素ANOVA:事后多重比較”對話框中,選擇LSD方法進行兩兩比較。單擊“繼續”按鈕確認,返回
44、主對話框。在 “選項”對話框中,選擇“描述性”項輸出描述性統計量和“均值圖”輸出頻數圖。單擊“確定”按鈕確認,返回主對話框。單擊“確定”按鈕完成設置,執行單因素方差分析。SPSS將自動分解觀測變量的變差,計算組間方差、組內方差、F統計量以及對應的概率P值,完成單因素方差分析的相關分析,并對計算結果輸出到結果輸出窗口中。5.5.2 多因素方差分析1 多因素方差分析基本思想多因素方差分析用來研究兩個及兩個以上是否對觀測變量產生顯著影響。這里,由于研究多個因素對觀測變量的影響,因此稱為多因素方差分析。多因素方差分析不僅能夠分析多個因素對觀測變量的獨立影響,更能夠分析多個控制因素的交互作用能否對觀測變
45、量的分布產生顯著影響,進而最終找到利于觀測變量的最優組合。例如:分析不同品種、不同施肥量對農作物產量的影響時,可將農作物產量作為觀測變量,品種和施肥量作為。利用多因素方差分析方法,研究不同品種、不同施肥量是如何影響農作物產量的,并進一步研究哪種品種與哪種水平的施肥量是提高農作物產量的最優組合。2 多因素方差分析的其他功能(1) 均值檢驗在SPSS中,利用多因素方差分析功能還能夠對各不同水平下觀測變量的均值是否存在顯著差異進行比較,實現方式有兩種,即多重比較檢驗和對比檢驗。多重比較檢驗的方法與類似。對比檢驗采用的是單樣本的方法,它將不同水平下的觀測變量值看做來自不同總體的樣本,并依次檢驗這些總體
46、的均值是否與某個指定的檢驗值存在顯著差異。其中,檢驗值可以指定為以下幾種:觀測變量的均值(Deviation);第一水平或最后一個水平上觀測變量的(Simple);前一水平上觀測變量的均值(Difference);后一水平上觀測變量的均值(Helmert)。(2) 交互作用的圖形分析控制變量的交互作用可以通過圖形直觀分析。3 多因素方差分析的進一步分析在上述中,已經對廣告形式、地區對銷售額的影響進行了多因素方差分析,建立了飽和。由分析可知:廣告形式與地區的交互作用不顯著,先進一步嘗試非飽和模型,并進行均值比較分析、交互作用圖形分析。(1) 建立非飽和模型(2) 均值比較分析(3) 控制變量交互
47、作用的圖形分析4 實例演示執行菜單“分析”“一般線性模型”“單變量”命令首先建立數據文件“教改成績.sav”,然后再新建的數據文件中定義變量和錄入數據。關于新建數據文件的方法,在前面的章節中已詳細講解過,此處不再贅述。從菜單欄中選擇“分析一般線性模型單變量”命令。將“教改成績”作為自變量選入“因變量”文本框中,將“教法”和“教材”作為固定量選入“固定因子”列表框中。單擊“選項”按鈕,打開如下所示的選項對畫框。在“輸出”欄選擇“描述統計”和“同質性檢驗”復選框,然后單擊“繼續”按鈕確認并返回。單擊“事后多重比較”按鈕,打開如下所示的事后多重比較對話框。選擇變量“教法”進入“事后檢驗”列表框中,然
48、后在“假定方差齊性”欄下選擇LSD和Tukey項。單擊“確定”按鈕,并執行上述操作。5.5.3重復測量方差分析實例演示執行菜單“分析”“一般線性模型”“重復測量”命令輸入數據集,并將數據文件命名為repeated。用before表示前測,用after表示后測。執行“分析一般線性模型重復度量”命令,打開如下所示的“重復測量定義因子”窗口。從“被試內因子名稱”文本框中刪除原有的“因子1”,然后輸入組內因數名cla。在“級別數”文本框中輸入因素水平數3,然后單擊“添加”按鈕,則在右側的列表框中顯示cla(3)。此時,“定義”按鈕有效。單擊“定義”按鈕,打開如下所示的“重復度量”主窗口。先后選擇變量c
49、lass、前測成績、后測成績進入“群體內部變量”列表框。單擊“模型”按鈕,打開模型對話框。選擇“定制”單選按鈕,并將cla變量選入“主體內模型”列表框。單擊“繼續”按鈕并返回。單擊“選項”按鈕,打開選項對話框,。在“輸出”欄中選擇“描述統計”項,然后單擊“繼續”按鈕返回。單擊“確定”按鈕并執行上述操作。5.5.4 協方差分析1 分析基本思想通過上述的分析可以看到,不論是還是多因素方差分析,控制因素都是可控的,其各個水平可以通過人為的努力得到控制和確定。但在許多實際問題中,有些控制因素很難人為控制,但它們的不同水平確實對觀測變量產生了較為顯著的影響例如,在研究農作物產量問題時,如果僅考察不同施肥
50、量、品種對農作物產量的影響,不考慮不同地塊等因素而進行方差分析,顯然是不全面的。因為事實上有些地塊可能有利于農作物的生長,而另一些卻不利于農作物的生長。不考慮這些因素進行分析可能會導致:即使不同的施肥量、不同品種農作物產量沒有產生顯著影響,但分析的結論卻可能相反。再例如,分析不同的飼料對生豬增重是否產生顯著差異。如果單純分析的作用,而不考慮生豬各自不同的身體條件(如初始體重不同),那么得出的結論很可能是不準確的。因為體重增重的幅度在一定程度上是包含諸如初始體重等其他因素的影響的。2 協方差分析的原理將那些人為很難控制的控制因素作為,并在排除協變量對觀測變量影響的條件下,分析(可控)對觀測變量的
51、作用,從而更加準確地對控制因素進行評價。仍然沿承方差分析的基本思想,并在分析觀測變量變差時,考慮了的影響,人為觀測變量的變動受四個方面的影響:即的獨立作用、控制變量的交互作用、協變量的作用和隨機因素的作用,并在扣除協變量的影響后,再分析控制變量的影響。方差分析中的原假設是:對觀測變量的線性影響是不顯著的;在協變量影響扣除的條件下,各水平下觀測變量的總體均值無顯著差異,控制變量各水平對觀測變量的效應同時為零。檢驗仍采用F統計量,它們是各均方與隨機因素引起的均方比。3 實例演示執行菜單“分析”“一般線性模型”“單變量”命令(1)執行菜單“圖形”“舊對話框”“散點/點狀”命令(2)執行“分析般線性模
52、型單變量”命令,打開如下所示的“單變量”對話框。在“單變量”對話框中,選擇“喂養后體重的增加”作為自變量選入“因變量”文本框;“飼料種類”作為固定變量,進入“固定因子”文本框;而“喂養前體重”作為協變量進入“協變量”文本框。(3)對話框中單擊“對比”按鈕,并選擇“簡單”項,然后單擊“更改”按鈕進行簡單對照,分別以“最后一個”和“第一個”作為參照對比進行對比。在選項對話框中選擇“描述統計”項輸出描述性統計量。第6講 多元統計分析6.1 聚類分析聚類分析是研究(樣本或指標)分類問題的一種多元統計方法。聚類分析是根據一批樣品的許多觀測指標,按照一定的數學公式具體地計算一些樣品或一些指標的相似程度,把
53、相似的樣品或指標歸為一類。變量之間的聚類即R型聚類分析,常用相似系數來測度變量之間的親疏程度;樣品之間的聚類即Q型聚類分析,常用距離來測度樣品之間的親疏程度。6.1.1 理論背景聚類分析起源于分類學,在考古的分類學中,人們主要依靠經驗和專業知識來實現分類。隨著生產技術和科學的發展,人類的認識不斷加深,分類越來越細,要求也越來越高,有時光憑經驗和專業知識是不能進行確切分類的,往往需要定性和定量分析結合起來去分類,于是數學工具逐漸被引進分類學中,形成了數值分類學。后來隨著多元分析的引進,聚類分析又逐漸從數值分類學中分離出來而形成一個相對獨立的分支。在社會經濟領域中存在著大量分類問題,比如對我國30
54、個省市自治區獨立核算工業企業經濟效益進行分析,一般不是逐個省市自治區去分析,而較好地做法是選取能反映企業經濟效益的代表性指標,如百元固定資產實現利稅、資金利稅率、產值利稅率、百元銷售收入實現利潤、全員勞動生產率等等,根據這些指標對30個省市自治區進行分類,然后根據分類結果對企業經濟效益進行綜合評價,就易于得出科學的分析。又比如若對某些大城市的物價指數進行考察,而物價指數很多,有農用生產物價指數、服務項目價指數、食品消費物價指數、建材零售價格指數等等。由于要考察的物價指數很多,通常先對這些物價指數進行分類??傊?,需要分類的問題很多,因此聚類分析這個有用的數學工具越來越受到人們的重視,它在許多領域
55、中都得到了廣泛的應用。6.1.2距離和相似系數1 變量測量尺度的類型為了將樣本進行分類,就需要研究樣品之間的關系;而為了將變量(指標)進行分類,就需要研究變量之間的關系。但無論是樣品之間的關系,還是變量之間的關系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。 (1) 間隔尺度。指標度量時用數量來表示,其數值由測量、計數、統計得到,如長度、重量、收入、支出等。一般來說,計數得到的數量是離散數量,測量得到的數量是連續數量。在間隔尺度中如果存在絕對零點,又稱比例尺度。 (2) 順序尺度。指標度量時沒有明確的數量表示,只有次序關系,或雖用數量表
56、示,但相鄰兩數值之間的差距并不相等,它只表示一個有序狀態序列。如評價酒的味道,分成好、中、次三等,三等有次序關系,但沒有數量表示。(3) 名義尺度。指標度量時既沒有數量表示也沒有次序關系,只有一些特性狀態,如眼睛的顏色,化學中催化劑的種類等。在名義尺度中只取兩種特性狀態的變量是很重要的,如電路的開和關,天氣的有雨和無雨,人口性別的男和女,醫療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。 2 數據的變換處理 所謂數據變換,就是將原始數據矩陣中的每個元素,按照某種特定的運算把它變成為一個新值,而且數值的變化不依賴于原始數據集合中其它數據的新值。(1) 中心化變換中心化變換是一種坐標軸
57、平移處理方法,它是先求出每個變量的樣本平均值,再從原始數據中減去該變量的均值,就得到中心化變換后的數據。 設原始觀測數據矩陣為: 中心化變換的結果是使每列數據之和均為0,即每個變量的均值為0,而且每列數據的平方和是該列變量樣本方差的(n-1)倍,任何不同兩列數據之交叉乘積是這兩列變量樣本協方差的(n-1)倍,所以這是一種很方便地計算方差與協方差的變換。(2) 極差規格化變換 規格化變換是從數據矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數據中減去該變量中的最小值,再除以極差,就得到規格化數據。即有: 經過規格化變換后,數據矩陣中每列即每個變量的最大數值為
58、1,最小數值為0,其余數據取值均在01之間;并且變換后的數據都不再具有量綱,便于不同的變量之間的比較。 (3) 標準化變換 標準化變換也是對變量的數值和量綱進行類似于規格化變換的一種數據處理方法。首先對每個變量進行中心化變換,然后用該變量的標準差進行標準化。特點是在抽樣樣本改變時,它仍保持相對穩定性。即:經過標準化變換處理后,每個變量即數據矩陣中每列數據的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數據矩陣中任何兩列數據乘積之和是兩個變量相關系數的(n1)倍,所以這是一種很方便地計算相關矩陣的變換。(4) 對數變換對數變換是將各個原始數據取對數,將原始數據的對
59、數值作為變換后的新值。特點是將具有指數特征的數據結化為線性特征的數據結構。即:3 樣品間親疏程度的測度研究樣品或變量的親疏程度的數量指標有兩種,一種叫相似系數,性質越接近的變量或樣品,它們的相似系數越接近于1或一l,而彼此無關的變量或樣品它們的相似系數則越接近于0,相似的為一類,不相似的為不同類; 另一種叫距離,它是將每一個樣品看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類。(1) 定義距離的準則 定義距離要求滿足第i個和第j個樣品之間的距離如下四個條件(距離可以自己定義,只要滿足距離的條件) 對一切i和j都成立;(2) 常用距離的算法
60、1) 明氏距離測度設和是第i和 j 個樣品的觀測值,則二者之間的距離為:明式距離 特別,絕對值距離和歐氏距離都是其中之一種。明考夫斯基距離主要有以下兩個缺點:首先,明氏距離的值與各指標的量綱有關,而各指標計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數值改變,從而使該距離的數值依賴于各變量計量單位的選擇。其次,明氏距離的定義沒有考慮各個變量之間的相關性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進行了綜合。2) 杰氏距離這是杰斐瑞和馬突斯塔(Jffreys &
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年市場容量與公司戰略調整試題及答案
- 策劃班級勵志講座的主題計劃
- 保證重要活動安全的方案計劃
- 網絡管理員實踐技能試題及答案總結
- 財務業績分析計劃
- 2024年云南省民政廳下屬事業單位真題
- 學校社團工作計劃推廣綠色出行
- 市場開拓與客戶維護計劃
- 2025屆河南省洛陽市李村一中學七年級數學第二學期期末學業質量監測模擬試題含解析
- 社交行業的品牌工作計劃
- 海門村干部考試試題及答案
- (二模)2025年5月濟南市高三高考針對性訓練生物試卷(含答案)
- 溝通的藝術智慧樹知到期末考試答案章節答案2024年湖南師范大學
- 中國主要地理界線 課件(28張PPT)
- 一般行業主要負責人和安全管理人員考試復習題庫
- 計算機組裝與維護立體化教程ppt課件(完整版)
- 安全安全資金使用計劃
- 痛風性關節炎 課件
- 項目部管理人員名單
- 《新編英語語法教程》主要章節語法術語
- 電腦企業之 組裝作業指導書(DK607 Nupro760)
評論
0/150
提交評論