




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1如何選擇數據分析方法如何選擇數據分析方法?吳喜之吳喜之2數據和目的相結合的出發點數據和目的相結合的出發點 1. 相關分析及回歸類模型相關分析及回歸類模型(相關、(相關、簡單的回歸、簡單的回歸、Logistic回歸、對數線性模型回歸、對數線性模型、方差分析和一般方差分析和一般線性模型線性模型) 2. 經典多元分析內容經典多元分析內容(主成分分析、因子分析主成分分析、因子分析、聚類分析聚類分析、判別分析判別分析、對應分析對應分析)3主要涉及的相關問題主要涉及的相關問題什么是相關?什么是相關?列聯表中定性變量的相關列聯表中定性變量的相關(Fisher & c c2檢驗檢驗)定量變量的相關定
2、量變量的相關(Pearson相關系數相關系數(r),Kendalls t t、Spearman r r)4基本統計書中的估計和假設檢驗所涉及的基本統計書中的估計和假設檢驗所涉及的僅僅是對一些互相沒有關系的變量的描述。僅僅是對一些互相沒有關系的變量的描述。但是現實世界的問題都是相互聯系的。不但是現實世界的問題都是相互聯系的。不討論變量之間的關系,就無從談起任何有討論變量之間的關系,就無從談起任何有深度的應用;而沒有應用,前面講過的那深度的應用;而沒有應用,前面講過的那些基本概念就僅僅是擺設而已。些基本概念就僅僅是擺設而已。 5變量間的關系變量間的關系 人們每時每刻都在關心事物之間的關系。人們每時
3、每刻都在關心事物之間的關系。 比如,比如,職業種類和收入之間的關系、政府投入和經濟增職業種類和收入之間的關系、政府投入和經濟增長之間的關系、廣告投入和經濟效益之間的關系、治療長之間的關系、廣告投入和經濟效益之間的關系、治療手段和治愈率之間的關系等等。手段和治愈率之間的關系等等。 這些都是這些都是二元二元的關系。的關系。 還有更復雜的還有更復雜的諸多變量之間的相互關系諸多變量之間的相互關系, 比如比如企業的固定資產、流動資產、預算分配、管理模式、企業的固定資產、流動資產、預算分配、管理模式、生產率、債務和利潤等諸因素的關系是不能用簡單的一生產率、債務和利潤等諸因素的關系是不能用簡單的一些二元關系
4、所描述的。些二元關系所描述的。 6例例1 1廣告投入和銷售之間的關系廣告投入和銷售之間的關系(數據(數據ads.savads.sav) AALE7060504030201007這是什么關系?這是什么關系? 這兩個變量是否有關系?顯然,它們有關系;這從散點圖就這兩個變量是否有關系?顯然,它們有關系;這從散點圖就很容易看出。很容易看出。基本上銷售額是隨著廣告投入的遞增而遞增。基本上銷售額是隨著廣告投入的遞增而遞增。 如果有關系,它們的關系如果有關系,它們的關系是否顯著?是否顯著?這也可以從散點圖得到。這也可以從散點圖得到。當廣告投入在當廣告投入在6 6萬元以下,銷售額增長
5、很快;但大于這個投萬元以下,銷售額增長很快;但大于這個投入時,銷售額增長就不明顯了。因此,入時,銷售額增長就不明顯了。因此,這兩個變量的關系是這兩個變量的關系是由強變弱。由強變弱。 這些關系是什么關系,這些關系是什么關系,是否可以用數學模型來描述?是否可以用數學模型來描述?本例看本例看上去是可以擬合一個回歸模型(后面會介紹),但絕不是線上去是可以擬合一個回歸模型(后面會介紹),但絕不是線性的(用一條直線可以描述的)。具體細節需要進一步的分性的(用一條直線可以描述的)。具體細節需要進一步的分析析 8這是什么關系?這是什么關系? 這個關系是否帶有普遍性?這個關系是否帶有普遍性?也就是說,僅僅這一個
6、樣本有這也就是說,僅僅這一個樣本有這樣的關系,還是對于其他企業也有類似的規律。這里的數據樣的關系,還是對于其他企業也有類似的規律。這里的數據還不足以回答這個問題。可能需要考慮更多的變量和收集更還不足以回答這個問題。可能需要考慮更多的變量和收集更多的數據。一般來說,人們希望能夠從一些特殊的樣本,得多的數據。一般來說,人們希望能夠從一些特殊的樣本,得到普遍的結論,以利于預測。到普遍的結論,以利于預測。 這個關系是不是因果關系?這個關系是不是因果關系?在本問題中,看來在本問題中,看來似乎似乎有因果關有因果關系。這類似于一種試驗;而試驗時是容易找到因果關系的。系。這類似于一種試驗;而試驗時是容易找到因
7、果關系的。但是,一般來說,變量之間有關系但絕不意味著存在因果關但是,一般來說,變量之間有關系但絕不意味著存在因果關系。系。這里充滿了危險和未知!這里充滿了危險和未知!9定性變量間的關系定性變量間的關系(關于某項政策調查所得結果(關于某項政策調查所得結果: :table7.savtable7.sav)觀點:贊成觀點:不贊成低收入中等收入高收入低收入中等收入高收入男201055810女25157279大致可以看出女性贊成的多,低收入贊成大致可以看出女性贊成的多,低收入贊成的多(還有嗎?)的多(還有嗎?) 10o op pi in ni io on n * * i in nc co om me e
8、C Cr ro os ss st ta ab bu ul la at ti io on nCount71519414525128252403112301opinionTotal123incomeTotal觀點:贊成(1)觀點:不贊成(0)低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女025157279s se ex x * * o op pi in ni io on n C Cr ro os ss st ta ab bu ul la at ti io on nCount184765233558418212301sexTotal01opini
9、onTotal11列聯表列聯表(contingency table). 前面就是一個所謂的三維前面就是一個所謂的三維列聯表列聯表這些變量中這些變量中每個都有兩每個都有兩個或更多的可能取值個或更多的可能取值。這些取值也稱為。這些取值也稱為水平水平;比如收入;比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。有三個水平,觀點有兩個水平,性別有兩個水平等。該該表為表為322列聯表列聯表 在在SPSS數據中,表就不和課本印的一樣,收入的數據中,表就不和課本印的一樣,收入的“低低”、“中中”、“高高”用代碼用代碼1、2、3代表;性別的代表;性別的“女女”、“男男”用代碼用代碼0、1代表;觀點代表;觀
10、點“贊成贊成”和和“不不贊成贊成”用用1、0代表。有些計算機數據對于這些代碼的形代表。有些計算機數據對于這些代碼的形式不限(式不限(可以是數字,也可以是字符串可以是數字,也可以是字符串)。)。12Table7.sav 數據數據13列聯表列聯表 列聯表的中間各個變量不同水平的交匯處,就是這列聯表的中間各個變量不同水平的交匯處,就是這種水平組合出現的頻數或種水平組合出現的頻數或計數計數(count)。)。 列聯表可以有很多維。維數多的叫做列聯表可以有很多維。維數多的叫做高維列聯表。高維列聯表。 注意前面這個列聯表的變量都是定性變量注意前面這個列聯表的變量都是定性變量;但列聯但列聯表也會帶有表也會帶
11、有定量變量作為協變量。定量變量作為協變量。14二維列聯表的檢驗二維列聯表的檢驗 研究列聯表的一個主要目的是看研究列聯表的一個主要目的是看這些變量是否相關。比如這些變量是否相關。比如前面例前面例子中的子中的收入和觀點收入和觀點是否相關是否相關。這需要形式上的檢驗這需要形式上的檢驗15二維列聯表的檢驗二維列聯表的檢驗 對于上面那樣的二維表。我們檢驗的零假設和備選假設為對于上面那樣的二維表。我們檢驗的零假設和備選假設為 H H0 0:觀點和收入這兩個變量不相關觀點和收入這兩個變量不相關;H H1 1:這兩個變量相關。這兩個變量相關。 這里的檢驗統計量在零假設下有(大樣本時)這里的檢驗統計量在零假設下
12、有(大樣本時)近似的近似的c c2 2分布。分布。 當該統計量很大時或當該統計量很大時或p p- -值很小時,就可以拒絕零假設,認為值很小時,就可以拒絕零假設,認為兩個變量相關。兩個變量相關。 實際上有不止一個實際上有不止一個c c2 2檢驗統計量。包括檢驗統計量。包括Pearson c c2 2統計量統計量和和似然比似然比(likelihood ratio)c c2 2統計量統計量;它們都有漸近的;它們都有漸近的c c2 2分布。分布。 根據計算可以得到(對于這兩個統計量均有)根據計算可以得到(對于這兩個統計量均有)p p- -值小于值小于0.0010.001。因此可以說,收入高低的確影響觀
13、點。因此可以說,收入高低的確影響觀點。 1621niiiiOEQE12lnniiiiOTOEPearson c c2 2統計量統計量似然比似然比c c2 2統計量統計量Oi代表第代表第i個格子的計數,個格子的計數,Ei代表按照零假設代表按照零假設(行列無關)(行列無關)對第對第i格子的計數的期望值格子的計數的期望值17二維列聯表的檢驗二維列聯表的檢驗 剛才說,這些剛才說,這些c c2 2統計量是近似的,那么統計量是近似的,那么有沒有精確的統計量有沒有精確的統計量呢?呢? 當然有。這個檢驗稱為當然有。這個檢驗稱為FisherFisher精確檢驗精確檢驗;它不是;它不是c c2 2分布,而分布,而
14、是是超幾何分布超幾何分布。 對本問題對本問題, ,計算計算FisherFisher統計量得到的統計量得到的p p- -值也小于值也小于0.0010.001。 既然有精確檢驗既然有精確檢驗為什么為什么還用近似的還用近似的c c2 2檢驗?檢驗? 這是因為當數目很大時,超幾何分布計算相當緩慢(比近似這是因為當數目很大時,超幾何分布計算相當緩慢(比近似計算會差很多倍的時間);而且在計算機速度不快時,根本計算會差很多倍的時間);而且在計算機速度不快時,根本無法計算。因此人們多用大樣本近似的無法計算。因此人們多用大樣本近似的c c2 2統計量。而列聯表統計量。而列聯表的有關檢驗也和的有關檢驗也和c c2
15、 2檢驗聯系起來了。檢驗聯系起來了。18Fisher精確檢驗精確檢驗19C Ch hi i- -S Sq qu ua ar re e T Te es st ts s10.288b1.001.002.0019.1071.00310.4961.001.002.001.002.001113Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFishers Exact TestN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Com
16、puted only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is23.45.b. SPSS: Weight-Describ-crosstab-exact20Chi-Square Tests20.456a2.000.00021.1902.000.00020.713.00020.290b1.000.000.000.000123Pearson Chi-SquareLikelihood RatioFishers Exact TestLinear-by-Lin
17、earAssociationN of Valid CasesValuedfAsymp. Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)PointProbability0 cells (.0%) have expected count less than 5. The minimum expected count is 10.33.a. The standardized statistic is -4.504.b. 下面為下面為SPSSSPSS對于對于table7.savstable7.savs數據產生的數據產生的下面二維列聯表下面二維列聯
18、表相關分析的相關分析的輸出輸出o op pi in ni io on n * * i in nc co om me e C Cr ro os ss st ta ab bu ul la at ti io on nCount71519414525128252403112301opinionTotal123incomeTotal21兩個定量變量的相關兩個定量變量的相關 如果兩個定量變量沒有關系,就如果兩個定量變量沒有關系,就談不上建立模型或進行回歸。談不上建立模型或進行回歸。但怎樣才能確定兩個變量有沒有但怎樣才能確定兩個變量有沒有關系呢關系呢? ?最簡單的辦法就是畫出它們的散最簡單的辦法就是畫出它們
19、的散點圖。點圖。 22例例1 1 有有5050個從初中升到高中的學生個從初中升到高中的學生. .為了比較初三的成績是否和高中的成績為了比較初三的成績是否和高中的成績相關相關, ,得到了他們在初三和高一的各科平均成績得到了他們在初三和高一的各科平均成績( (數據數據:highschool.sav):highschool.sav)50名同學初三和高一成績的散點圖初三成績110100908070605040高一成績100908070605040從這張圖可以看出什么呢從這張圖可以看出什么呢? ?23問題是問題是怎么判斷這兩個變量是否相關怎么判斷這兩個變量是否相關? ?如何相關如何相關? ?相關的度量是
20、什么相關的度量是什么? ?進一步的問題是能否以初三成績為自變量,高進一步的問題是能否以初三成績為自變量,高一成績為因變量來建立一個回歸模型以描述這一成績為因變量來建立一個回歸模型以描述這樣的關系,或用于預測。樣的關系,或用于預測。24四組數據(每個有兩個變量的樣本)的散點圖-3-2-1012-2-1012(a)xy-2-1012-2-1012(b)xy-2-1012-2-1012(c)xy-3-2-1012302468(d)xy25幾種相關的度量幾種相關的度量 Pearson相關系數相關系數,又叫相關系數或線性相關系數。它一般用字又叫相關系數或線性相關系數。它一般用字母母r表示表示. Kend
21、all t t 相關系數相關系數( (Kendalls t t) )這里的度量原理是把所有的這里的度量原理是把所有的樣本點配對樣本點配對, ,看每一對中的看每一對中的x x和和y y是否都增加來判斷總體模式是否都增加來判斷總體模式. . Spearman 秩相關系數秩相關系數,它和它和Pearson相關系數定義有些類似相關系數定義有些類似,只只不過在不過在定義中把點的坐標換成各自樣本的秩定義中把點的坐標換成各自樣本的秩. . 它們各自都有以不相關為零假設的檢驗它們各自都有以不相關為零假設的檢驗, ,即即p-p-值小則相關值小則相關. .但但各各自的相關含義不盡相同自的相關含義不盡相同. . 現
22、在再來看例現在再來看例1 1的數據的數據(highschool.sav).關于初三和高一成績關于初三和高一成績的相關系數的結果是的相關系數的結果是Pearson相關系數,相關系數,Kendall t t 和和Spearman 秩相關系數分別為秩相關系數分別為0.795, 0.595和和0.758。26SPSS的的相關分析相關分析 相關分析相關分析(hischool.sav) 利用利用SPSS選項:選項:AnalizeCorrelateBivariate 再把兩個有關的變量再把兩個有關的變量(這里為這里為j3和和s1)選入,選擇選入,選擇Pearson,Spearman和和Kendall就可以得
23、出這三個相關系數和有關就可以得出這三個相關系數和有關的檢驗結果了的檢驗結果了(零假設均為不相關零假設均為不相關)。27例子例子 x=-20:20 y=x2-20-10010200100200300400 xy28例子例子 x=-20:20 y=x2C Co or rr re el la at ti io on ns s1.0001.0004141.00011.0004141Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NVAR00002VAR00003VAR00002VAR00003C Co or rr
24、 re el la at ti io on ns s1.000.000.1.0004141.0001.0001.000.41411.000.000.1.0004141.0001.0001.000.4141Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NVAR00002VAR00003VAR00002VAR00003Kendalls t
25、au_bSpearmans rhoVAR00002VAR00003-20-10010200100200300400 xy29例子例子 x=1:41 y=x530例子例子C Co or rr re el la at ti io on ns s1.824*.0004141.824*1.0004141Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NVAR00007y6VAR00007y6Correlation is significant at the 0.01 level (2-tailed).*. x=1:41 y=x5C Co or rr re el la at ti io on ns s1.0001.000*.41411.000*1.000.41411.0001.000*.41411.000*1.000.4141Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation Coefficien
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論