現代統計分析方法與應用第9章:定性數據建模分析_第1頁
現代統計分析方法與應用第9章:定性數據建模分析_第2頁
現代統計分析方法與應用第9章:定性數據建模分析_第3頁
現代統計分析方法與應用第9章:定性數據建模分析_第4頁
現代統計分析方法與應用第9章:定性數據建模分析_第5頁
已閱讀5頁,還剩32頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第9章定性數據的建模分析對數線性模型基本理論和方法對數線性模型分析的上機實驗Logistic回歸基本理論和方法Logistic回歸的方法與步驟第三章我們曾討論過定性數據的列聯表分析,對數線性模型是進一步用于離散型數據或整理成列聯表格式的數據的統計分析工具。它可以把方差分析和線性模型的一些方法應用到對交叉列聯表的分析中,從而對定性變量間的關系作更進一步的描述和分析。列聯表分析無法系統地評價變量間的聯系,也無法估計變量間交互作用的大小,而對數線性模型是處理這些問題的最佳方法。當被解釋變量是非度量變量時,可以用判別分析。然而當被解釋變量只有兩組時,Logistic回歸由于多種原因更受歡迎。首先,判別分析依賴于嚴格的多元正態性和相等協差陣的假設,這在很多情況下是達不到的。

Logistic回歸沒有類似的假設,而且這些假設不滿足時,結果非常穩定。其次,即使滿足假定,許多研究者仍偏好Logistic回歸,因為它類似于回歸分析。兩者都有直接的統計檢驗,都能包含非線性效果和大范圍的診斷。因為這些和更多技術原因,Logistic回歸等同于兩組的判別分析,在很多情況下更加適用。再者,Logistic回歸對于自變量沒有要求,度量變量或者非度量變量都可以進行回歸,這樣,本章僅介紹定性數據建模的對數線性模型和Logistic回歸方法。第1節對數線性模型基本理論和方法本節將利用2×2維的交叉列聯表來說明對數線性模型的基本理論和方法,同時利用SPSS軟件對真實的經濟定性數據作分析。從下面的2×2維交叉列聯表及其概率表,介紹對數線性模型的基本理論和方法。在對數線性模型分析中,要先將概率取對數,再分解處理,用公式表示如下:上式可以簡寫為:該式的結構與有交互效應,且各水平均為2的雙因素方差分析模型的結構相似,因此仿照方差分析,可以有如下關系式:對上面三式各取其平均數為:若記:其中:移項,可得與有交互效應的雙因素方差分析數學模型極為相似的關系式:在實際分析中,概率表中各項值,以交叉列聯表計算得的頻率表的對應項為無偏估計值。公式表示為:將其代入等算式,有:為與方差分析保持一致,可稱αi、βj分別是A、B的主效應,γij是A、B因素的交互效應。下面對模型的參數進行估計及檢驗。模型參數的估計及檢驗主要是估計γij值,根據γij值的正負和大小,可以判斷A因素的第i水平與B因素的第j水平間的交互效應。若γij>0,表明二者存在正效應;若γij<0,則存在負效應;若γij=0,則A、B因素獨立(也稱為非飽和模型)。將以上三式代入公式即可得的估計值。實際分析中,二維數據表并不是每個因素都是雙水平的,在分析中,把公式的i,j的取值上限調整即可。第2節對數線性模型分析的上機實踐可以使用SPSS軟件來實現對數線性模型分析。這里舉一個例子是3×2維的交叉列聯表的分析。我們用SPSS軟件中的Loglinear模塊實現分析。

【例9.1】

某企業想了解顧客對其產品是否滿意,同時還想了解不同收入的人群對其產品的滿意程度是否相同。在隨機發放的1000份問卷中收回有效問卷792份,根據收入高低和滿意回答的交叉分組數據如下表:

收入情況滿意不滿意合計高533891中434108542低11148159合計598194792首先要準備數據,上面的交叉列連表的數據要輸入到spss的表格里去,具體應當是如下:頻數收入情況滿意情況531143421111313812108224832按上面的形式輸入數據后,還不能馬上進行對數線性模型分析,必須先激活頻數,即讓頻數有效。具體步驟是:

首先,使用SPSS軟件,從主菜單中,以Data→WeightCases...順序,打開WeightCases對話框,選中Weightcasesby單選框,從變量列表中選出“頻數”變量,點擊鈕,使之進入FrequencyVariable框,然后點擊OK鈕,回到數據表格,這時分析前的準備工作就完成了。其次,從主菜單中,按Analyze→Loglinear→ModelSelection...的流程可打開ModelSelectionLoglinearAnalysis對話框,從左側變量欄里選中“收入情況”,點擊鈕使之進入Factor(s)框,這時該框下面的DefineRange...鈕就會從灰色變為黑色,點擊彈出LoglinearAnalysis:DefineRange對話框,可以定義變量的范圍,即該變量的水平范圍,本例中“收入情況”共有三種類型,代號分別是1、2、3,所以在Minimum處鍵入1,在Maximum處鍵入3,點擊Continue鈕,返回ModelSelectionLoglinearAnalysis對話框;按同樣方法,把“滿意情況”變量選入,并定以其范圍為1、2;然后選中“頻數”變量,點擊鈕使之進入CellWeight框;最后,點擊Options...鈕,進入LoglinearAnalysis:Options對話框,選擇DisplayforSaturatedModel欄下的Parameterestimates項,點擊Continue鈕返回ModelSelectionLoglinearAnalysis對話框,其他選項保持默認值,最后點擊OK鈕即完成分析步驟。得到如下輸出結果:首先顯示系統對792例資料進行分析,這792例資料可分為6類(3×2)。模型中共有二個分類變量:其中“收入情況”變量為3水平,“滿意情況”情況變量為2水平;分析的效應除了兩個分類變量,還有兩者的交互作用(收入情況*滿意情況)。系統經1次疊代后,即達到相鄰二次估計之差不大于規定的0.001。由于本例對模型采用系統默認的飽和模型,因而實際倒數(OBScount)與期望數(EXPcount)相同,進而殘差(Residual)和標準化殘差(Std.Resid)均為0。這是對模型是否有交互效應和高階效應進行檢驗,原假設是高階效應為0,即沒有高階效應。檢驗結果認為拒絕原假設,存在交互效應和高階效應。在Note里,表示對飽和模型的觀測單元進行了變換。接下來就是對模型參數的估計,以及對參數的檢驗結果。為了唯一地估計參數,系統強行限定同一分類變量的各水平參數之和為0,故根據上表結果可推得各參數為:α高收入=-0.6826424527α中收入=0.8826606586α低收入=0-(-0.6826424527)-0.8826606586=-0.2000182059β滿意=0.4248216629(滿意情況的1水平)β不滿意=-0.4248216629γ高收入.滿意=-0.2603099566γ中收入.滿意=0.268901223γ低收入.滿意=0-(-0.2603099566)-0.268901223=-0.0085912664γ高收入.不滿意=0.2603099566γ中收入.不滿意=-0.268901223γ低收入.滿意=0-0.2603099566-(-0.268901223)=0.0085912664參數值為正,表示正效應;反之為負效應;零為無效應。分析提供的信息是:⑴為正值,說明接受調查了的多數顧客對其產品還是滿意的;⑵,說明各收入階層的顧客對其產品的滿意程度是不同的,其中,高收入的顧客滿意程度最低,而中層收入的顧客滿意程度最高;⑶通過對企業顧客的收入情況和滿意情況交互效應的研究,為負值表示高收入與對產品的滿意程度是負效應的,為正表示中等收入者與對其產品的滿意程度是正效應的,同理,低收入人群對其產品的滿意程度也是負效應的。該企業的產品主要的消費階層是中等收入者,同時中等收入者對其產品的滿意程度也最好。第3節Logistic回歸基本理論和方法通常我們需要研究某一社會現象發生的概率戶的大小,比如某一項目成功或失敗的概率,以及討論p的大小與哪些因素有關。但是直接處理可能性數值p存在困難,一是0≤p≤1,因此p與自變量的關系難以用線性模型來描述;二是當p接近于0或1時,p值的微小變化用普通的方法難以發現和處理好。這時,不處理參數p,而處理p的一個嚴格單調函數Q=Q(p),就會方便得多。要求Q(p)在p=0或者p=1的附近的微小變化要很敏感,于是令:將p換成Q,這一變換就稱為Logit變換,從Logit變換可以看出,當p從0→1時,Q的值從-∞→+∞,因此Q的值在區間(-∞,+∞)上變化,這一變換完全克服了一開始所提出的兩點困難,在數據處理上帶來很多方便。如果對自變量的關系式是線性的、二次的或多項式的,通過普通的最小二乘就可以處理,然后從p與Q的反函數關系式中求出p與自變換。例如Q=b’x,則有:,這就是Logit變換所帶來的方便。根據上面的思想,當因變量是一個二元變量時,只取0與1兩個值時,因變量取1的概率p(y=1)就是要研究的對象。如果有很多因素影響y的取值,這些因素就是自變量記為x1,…,xk,這些xi中既有定性變量,也有定量變量。最重要的一個條件是:Logistic回歸不同于一般回歸分析的地方在于它直接預測出了事件發生的概率。盡管這個概率值是個度量尺度,Logistic回歸與多元回歸還是有著很大的差異。概率值可以是0~1之間的任何值,但是預測值必須落入0~1的區間。這樣,Logistic回歸假定解釋變量與被解釋變量之間的關系類似于S形曲線。而且,不能從普通回歸的角度來分析Logistic回歸,因為這樣做會違反幾個假定。首先,離散變量的誤差形式服從貝努里分布,而不是正態分布,這樣使得基于正態性假設的統計檢驗無效。其次,二值變量的方差不是常數,會造成異方差性。Logistic回歸是專門處理這些問題的。它的解釋變量與被解釋變量之間獨特的關系使得在估計、評價擬合度和解釋系數方面有不同的方法。滿足上面條件的稱為Logistic線性回歸。估計Logistic回歸模型與估計多元回歸模型的方法是不同的。多元回歸采用最小二乘估計,將解釋變量的真實值與預測值差異的平方和最小化。而Logistic變換的非線性特征使得在估計模型的時候采用極大似然估計的疊代方法,找到系數的“最可能”的估計。這樣在計算整個模型擬合度的時候,就采用似然值而不是離差平方和。Logistic回歸的另一個好處就是我們只需要知道一件事情(有沒有購買、公司成功還是失敗)是否發生了,然后再用二元值作為我們的解釋變量。從這個二元值中,程序預測出事件發生或者不發生的概率。如果預測概率大于0.5,則預測發生,反之則不發生。需要注意的是,Logistic回歸和系數的解釋與多元回歸的解釋不同。程序計算出Logistic系數,比較事件發生與不發生的概率比。假定事件發生的概率為p,優勢比率可以表示為:估計的系數(b0,b1,b2,…,bn)反映優勢比率的變化。如果bi是正的,它的反對數值(指數)一定大于1,則優勢比率會增加;反之,如果bi是負的,則優勢比率會減小。前面已提到Logistic回歸在估計系數時,是用的極大似然估計法。就象多元回歸中的殘差平方和,Logistic回歸對模型擬合好壞通過似然值來測量。(實際上是用-2乘以似然值的自然對數即-2Log似然值,簡記為-2LL)。一個好的模型應該有較小的-2LL。如果一個模型完全擬合,則似然值為1,這時-2LL達到最小,為0。Logistic回歸對于系數的檢驗采用的是與多元回歸中t檢驗不同的統計量,稱為Wald統計量。一、分組數據的Logistic回歸模型針對0-1型因變量產生的問題,我們對回歸模型應該做兩個方面的改進。第一,回歸函數應該改用限制在[0,1]區間內的連續曲線,而不能再沿用直線回歸方程。限制在[0,1]區間內的連續曲線有很多,例如所有連續型隨機變量的分布函數都符合要求,我們常用的是Logistic函數與正態分布函數。Logistic函數的形式為Logistic函數的中文名稱是邏輯斯諦函數,或簡稱邏輯函數。的圖形的圖形第二,因變量yi本身只取0,1兩個離散值,不適于直接作為回歸模型中的因變量,由于回歸函數E(yi)=пi=β0+β1xi表示在自變量為xi的條件下yi的平均值,而yi是0-1型隨機變量,因而E(yi)=пi就是在自變量為xi的條件下yi等于1的比例。這提示我們可以用yi等于1的比例代替yi本身作為因變量。

【例9.2】在一次住房展銷會上,與房地產商簽定初步購房意向書的共有n=325名顧客中,在隨后的3個月的時間內,只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數據,建立Logistic回歸模型3.3330.6931470.66666710159.595.1430.2876820.57142912218.586.8570.2876820.57142916287.579.5900.2578290.56410322396.5610.698-0.139760.46511620435.5512.692-0.310150.42307722524.5414.345-0.207640.44827626583.537.719-0.379490.40625013322.525.440-0.753770.3200008251.51權重wi=nipi(1-pi)邏輯變換實際購房比例pi=mi/ni實際購房人數mi簽定意向書人數ni年家庭收入(萬元)x序號Logistic回歸方程為:式中:c為分組數據的組數,本例c=9。將以上回歸方程做線性變換,令:則變換后的線性回歸模型為:依據本例數據,算出經驗回歸方程為:判定系數r2=0.9243,顯著性檢驗P值≈0,高度顯著。將經驗回歸方程代入式:得:這表明在住房展銷會上與房地產商簽訂初步購房意向書的年收入8萬元的家庭中,預計實際購房比例為59%。或者說,一個簽訂初步購房意向書的年收入8萬元的家庭,其購房概率為59%。用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,式的回歸模型不是等方差的,應該對其用加權最小二乘估計。當ni較大時,pi’的近似方差為:式中,因而選取權數為:對例9.2重新用加權最小二乘法做估計,計算結果如下:用加權最小二乘法得到的Logistic回歸方程為:將x=8代入回歸方程得到的購房比例預測值為:得年收入8萬元的家庭預計實際購房比例為58.5%,這個結果與未加權的結果很接近。以上的例子是只有一個自變量的情況,分組數據的Logistic回歸模型可以很方便的推廣到多個自變量的情況,在此就不舉例說明了。分組數據的Logistic回歸只適用于大樣本的分組數據,對小樣本的未分組數據不適用。并且以組數c為回歸擬合的樣本量,使擬合的精度低。實際上,我們可以用極大似然估計直接擬合未分組數據的Logistic回歸模型,以下就介紹這個方法。二、未分組數據的Logistic回歸模型設y是0-1型變量,x1、x2、…、xp是與y相關的確定型變量,n組觀測數據為(xi1、xi2、…、xip、yi),i=1,2,…,n,y1、y2、…、yn其中是取值0或1的隨機變量,yi與xi1、xi2、…、xip的關系為:其中函數f(x)是值域在[0,1]區間內的單調增函數。對于Logistic回歸,于是yi是均值為的0—1型分布,概率函數為:可以把yi的概率函數合寫為:于是y1、y2、…、yn的似然函數為:對似然函數取自然對數,得:對于Logistic,將代入得:

[例9.3]

在一次關于公共交通的社會調查中,一個調查項目是“是乘坐公共汽車上下班,還是騎自行車上下班”。因變量y=1表示主要乘坐公共汽車上下班,y=0表示主要騎自行車上下班。自變量x1是年齡,作為連續型變量;x2是月收入(元);x3是性別,x3=1表示男性,x3=0表示女性。調查對象為工薪族群體,數據見下表。試建立y與自變量間的Logistic回歸。010002011508501801118005612808501811411500521271180058013010004812612100560121180045125118005501101500411240120048010012003812319504609010003312211000420801800331211150036070100032120085031061950301191120028050150028118195023040130027117185023030120025116012002102y月收入年齡性別序號y月收入年齡性別序號

⑴點選SPSS軟件的Analyze→Regression→BinaryLogistic命令,進入Logistic回歸對話框如下所示:

利用SPSS軟件進行估計的步驟如下:⑵將y送入Dependent框;⑶將x1、x2、x3送入Covariate框中;⑷點擊[OK],系統輸出以下結果:上表中SEX(性別)、AGE(年齡)、X2(月收入)是3個自變量,Wald是回歸系數檢驗的統計量值,Sig是Wald檢驗的顯著性概率,R是偏相關系數。可以看到,X2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論