邏輯回歸分析_第1頁
邏輯回歸分析_第2頁
邏輯回歸分析_第3頁
邏輯回歸分析_第4頁
邏輯回歸分析_第5頁
已閱讀5頁,還剩50頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、SPSS 16實用教程在前面學到的回歸模型中,我們處理的因變量在前面學到的回歸模型中,我們處理的因變量都是數值型區間變量,建立的模型描述的是因都是數值型區間變量,建立的模型描述的是因變量的期望與自變量之間的線性關系。變量的期望與自變量之間的線性關系。線性回歸模型:線性回歸模型:然而,在許多實際問題中,我們需要研究的響然而,在許多實際問題中,我們需要研究的響應變量不是區間變量而是順序變量或名義變量應變量不是區間變量而是順序變量或名義變量這樣的屬性變量。這樣的屬性變量。) 1.(.(Y)E22110kkXXX7.8.1 統計學上的定義和計算公式統計學上的定義和計算公式比如在致癌因素的研究中,我們收

2、集了若干比如在致癌因素的研究中,我們收集了若干人的健康記錄,包括年齡、性別、抽煙史、人的健康記錄,包括年齡、性別、抽煙史、日常飲食以及家庭病史等變量的數據。響應日常飲食以及家庭病史等變量的數據。響應變量在這里是一個兩點(變量在這里是一個兩點(0-1)分布變量,)分布變量,Y=1(一個人得了癌癥),(一個人得了癌癥),Y=0(沒得癌癥)。(沒得癌癥)。如果我們按照(如果我們按照(1)建立一般線性模型:)建立一般線性模型:) 1.(.(Y)E22110kkXXX因為因為Y只能取只能取0或或1,而,而 的取值是連續的。的取值是連續的。顯然不能用顯然不能用 來預測因變量來預測因變量 Y 。我們注意到,

3、對于我們注意到,對于0-1型變量,型變量, E(Y)=P(Y=1)=p因而,我們似乎可以用因而,我們似乎可以用 來預測來預測Y=1的概的概率,即:率,即:(Y)E(Y)E(Y)E)2.(.p22110kkXXX問題問題1. Y=1的概率與自變量之間的關系到底的概率與自變量之間的關系到底是不是線性的?(答案是否定的)是不是線性的?(答案是否定的)例如:我們分析一個人是否買車與其年收入例如:我們分析一個人是否買車與其年收入的關系。對于年薪的關系。對于年薪5000元、元、5萬元、萬元、50萬元萬元三個人,讓他們的年薪分別增加三個人,讓他們的年薪分別增加5000元對于元對于其買車的可能性影響是不一樣的

4、。其買車的可能性影響是不一樣的。概率與自變量之間的關系圖形往往是一個概率與自變量之間的關系圖形往往是一個S型型曲線曲線概率與自變量之間的關系曲線問題問題2. 概率的取值應該在概率的取值應該在01之間。但是(之間。但是(2)式的概率線性模型并不能滿足這一點。式的概率線性模型并不能滿足這一點。我們可以通過對我們可以通過對P進行一種變換(進行一種變換(logit變換)變換) logit(p)= ln(p/(1-p)使得使得logit(p)與自變量之間存在線性相關的關與自變量之間存在線性相關的關系。系。)3.()(logit1ln22110kkXXXppp)(exp11)exp(1)exp(11011

5、0110kkkkkkXXXXXXp模型的建立與解釋模型的建立與解釋同時,經過變換得到的模型也解決了(同時,經過變換得到的模型也解決了(2 2)中,)中,概率的預測值可能是概率的預測值可能是0,10,1之外的數的缺陷。之外的數的缺陷。(3 3)式建立的模型,我們稱為)式建立的模型,我們稱為logisticlogistic模型模型(邏輯回歸邏輯回歸模型)。模型)。我們在學習交叉列聯表的相關知識的時候,提我們在學習交叉列聯表的相關知識的時候,提到過到過優勢或發生比優勢或發生比(odds )和)和優勢比或發生優勢比或發生比率比率(odds ratio)的概念)的概念 是事件發生于不發生的概率之比是事件

6、發生于不發生的概率之比 那么邏輯模型就可以寫成那么邏輯模型就可以寫成 ppodds1kkXXXpodds22110)(logitln)(那么那么Xi增加一個單位增加一個單位ln(odds|xi+1)=ln(odds|xi)+i于是于是上式我們叫做優勢比(上式我們叫做優勢比(odds ratio)近似可看)近似可看成是在成是在Xi+1與與Xi兩種情況下,事件發生的概兩種情況下,事件發生的概率之比。率之比。則,則,PY=1|Xi+1PY=1|Xiexpiiexoddsxoddsii|1|最終,我們可能關心的是根據自變量的值來最終,我們可能關心的是根據自變量的值來對對Y的取值的取值0或或1進行預測。

7、而我們的邏輯回歸進行預測。而我們的邏輯回歸模型得到的只是關于模型得到的只是關于PY=1|x的預測。的預測。但是,我們可以根據模型給出的但是,我們可以根據模型給出的Y=1的概率的概率(可能性)的大小來判斷預測(可能性)的大小來判斷預測Y的取值。的取值。一般,以一般,以0.5為界限,預測為界限,預測p大于大于0.5時,我們時,我們判斷此時判斷此時Y更可能為更可能為1,否則認為,否則認為Y=0。對于邏輯模型對于邏輯模型模型系數的估計不能適用最小二乘估計模型系數的估計不能適用最小二乘估計(OLS)。)。這里,我可以運用最大似然估計(這里,我可以運用最大似然估計(MLE)的)的方法。方法。OLS通過使得

8、樣本觀測數據的殘差平方和最通過使得樣本觀測數據的殘差平方和最小來選擇參數,而小來選擇參數,而MLE通過最大化對數似然通過最大化對數似然值來估計參數。值來估計參數。kkXXXpp221101ln模型系數的確定模型系數的確定設設y是是0-1型變量,型變量, 是與是與y相關的自變量,相關的自變量,n組觀測數據為組觀測數據為 。于是。于是y1,y2,yn的似然函數為的似然函數為對數似然函數為對數似然函數為最大似然估計就是選取最大似然估計就是選取 的估計值的估計值 使得使得log似然函數最大化。似然函數最大化。kxxx, 21,ni, 2 , 1 iikiiyxxx;,21 niniyiyiiiiL11

9、1p1 )(pyPxxnixxxikkiiiikkiiexxxyL122110)1ln()(ln22110k,210k,210模型檢驗模型檢驗以下是關于模型擬合優度的度量以及模型參數檢驗的分析 與任何概率一樣,似然的取值范圍在與任何概率一樣,似然的取值范圍在0,10,1之間。之間。2LL2LL的計算公式為的計算公式為其報告值越小說明似然函數值越大從而模型擬其報告值越小說明似然函數值越大從而模型擬合程度越好合程度越好兩個模型之間顯著性兩個模型之間顯著性似然比檢驗統計量似然比檢驗統計量的形式的形式為為 -2log(L-2log(L0 0/L/L1 1)=-2LL)=-2LL0 0-(-2LL-(-

10、2LL1 1) )(自由度為參數(自由度為參數個數之差的卡方分布)個數之差的卡方分布)L L1 1是更大參數空間上的模型的似然函數。是更大參數空間上的模型的似然函數。1-2對數似然值(對數似然值(-2 log likelihood,-2LL)nixxikkiiikkiexxyL1110)1ln()(2ln2LL2110 Logistic Logistic回歸的擬合優度統計量計算公回歸的擬合優度統計量計算公式為式為Pearson Pearson 殘差平方和殘差平方和,在原假設(所建立的,在原假設(所建立的模型與飽和模型沒有顯著性差異)下也服從自模型與飽和模型沒有顯著性差異)下也服從自由度為兩個模

11、型參數之差的卡方分布由度為兩個模型參數之差的卡方分布 2擬合優度(擬合優度(Goodness of Fit)統計量)統計量Predicted(預測值)01Percent Correct (正確分類比例)Observed(觀測值)0n00n01f01n10n11f1Overall(總計)ffClassification Table for YClassification Table for Y在實際問題中,通常采用如下在實際問題中,通常采用如下分類表分類表(Classification TableClassification Table)反映擬合效果。)反映擬合效果。3Cox和和Snell的的R

12、 2(Cox&Snells R-Square)4Nagelkerke的的R 2(Nagelkerkes R-Square)5偽偽R 2(Psedo-R-square) 偽偽R R2 2與線性回歸模型的與線性回歸模型的R R2 2相對應,其意義相對應,其意義相似,但它小于相似,但它小于1 1。6Hosmer和和Lemeshow的擬合優度檢驗的擬合優度檢驗統計量統計量 與一般擬合優度檢驗不同,與一般擬合優度檢驗不同,HosmerHosmer和和LemeshowLemeshow的擬合優度檢驗通常把樣本數據根的擬合優度檢驗通常把樣本數據根據預測概率分為據預測概率分為1010組,然后根據觀測頻數

13、和期組,然后根據觀測頻數和期望頻數構造卡方統計量(即望頻數構造卡方統計量(即HosmerHosmer和和LemeshowLemeshow的擬合優度檢驗統計量,簡稱的擬合優度檢驗統計量,簡稱H-LH-L擬擬合優度檢驗統計量),最后根據自由度為合優度檢驗統計量),最后根據自由度為8 8的的卡方分布計算其值并對卡方分布計算其值并對LogisticLogistic模型進行檢模型進行檢驗。驗。 如果該如果該p p值小于值小于給定的顯著性水平(如給定的顯著性水平(如=0.05=0.05),則拒絕因變量的觀測值與模型預測),則拒絕因變量的觀測值與模型預測值不存在差異的零假設,值不存在差異的零假設,表明模型的

14、預測值與表明模型的預測值與觀測值存在顯著差異觀測值存在顯著差異。如果值。如果值大于大于,我們沒有,我們沒有充分的理由拒絕零假設,充分的理由拒絕零假設,表明在可接受的水平表明在可接受的水平上模型的估計擬合了數據上模型的估計擬合了數據。 7Wald統計量統計量(回歸系數的非零檢(回歸系數的非零檢驗)驗) Wald Wald統計量用于判斷一個變量是否應該統計量用于判斷一個變量是否應該包含在模型中,其檢驗步驟如下。包含在模型中,其檢驗步驟如下。 (1 1)提出假設。)提出假設。 (2 2)構造)構造WaldWald統計量。統計量。 (3 3)作出統計判斷。)作出統計判斷。 研究問題研究問題 在一次關于

15、某城鎮居民上下班使用交通工在一次關于某城鎮居民上下班使用交通工具的社會調查中,因變量具的社會調查中,因變量y =1y =1表示居民主要乘表示居民主要乘坐公共汽車上下班;坐公共汽車上下班;y =0y =0表示主要騎自行車上表示主要騎自行車上下班;自變量下班;自變量x1x1表示被調查者的年齡;表示被調查者的年齡;x2x2表示表示被調查者的月收入;被調查者的月收入;x3x3表示被調查者的性別表示被調查者的性別(x3=1x3=1為男性,為男性,x3=0 x3=0為女性)為女性)x3x3在這里是一在這里是一個虛擬變量個虛擬變量。試建立試建立y y與自變量間的與自變量間的LogisticLogistic回

16、歸,數據如回歸,數據如表表7-77-7所示。所示。7.8.2 SPSS中實現過程中實現過程序號序號x1(年齡)(年齡)x2(月收入:元)(月收入:元)x3(性別)(性別)y1188500022112000032385001423950015281200016318500073615000184210000194695001104812000011551800011256210001135818000114188501015201000101625120010172713001018281500101930950112032100010213318001022331000102338120010

17、24411500102545180011264810001027521500112856180011 實現步驟實現步驟將因變量放入dependent欄,自變量放入covariates欄中制定變量引入模型的方法和線性回歸一樣,我們可以通過next按鈕把自變量分成不同的組塊,使不同的組塊按順序以不同的方式分步進入模型這里,我們可以把幾個變量的乘積作為自變量引入模型作為交互影響項如果自變量中有分類變量,在這里可以設置相應的虛擬變量Classification plots:制作分類圖,通過比較因變量的觀測值與預測值的關系,反映回歸模型的擬合效果。Hosmer-Lemeshow goodness-of-

18、fit: H-L檢驗。Casewise listing of residuals:顯示個案的殘差值(顯示標準化殘差超過兩倍標準方差的個案或顯示所有個案)Correlations of estimates:輸出模型中各參數估計的相關矩陣。Iteration history:輸出最大似然估計迭代過程中的系數以及log似然值。CI for exp(B):輸出exp(beta)的置信區間,默認置信度為95%根據概率對數據進行分類時的概率界限值,默認值為0.5參數估計時,似然函數值收斂到最大值前的最大迭代次數。選擇輸出結果的方式。顯示每一步的計算結果或是只顯示最后的結果設定自變量進入模型方程或被剔除出方

19、程的標準。在save選項中,我們可以選擇需要保存的數據文件中的統計量。包括殘差值、個案影響度統計量、預測概率值等等 (1 1)第一部分輸出結果有兩個表格,第)第一部分輸出結果有兩個表格,第一個表格說明所有個案(一個表格說明所有個案(2828個)都被選入作為個)都被選入作為回歸分析的個案。回歸分析的個案。 7.8.3 結果和討論結果和討論 第二個表格說明初始的因變量值(第二個表格說明初始的因變量值(0 0,1 1)已經轉換為邏輯回歸分析中常用的已經轉換為邏輯回歸分析中常用的0 0、1 1數值。數值。 (2 2)第二部分()第二部分(Block 0Block 0)輸出結果有)輸出結果有4 4個表格

20、。(個表格。(組塊組塊0 0里只有常數項,沒有自變量里只有常數項,沒有自變量)分類表 (3 3)Omnibus Tests of Model Omnibus Tests of Model CoefficientsCoefficients表格列出了模型系數的表格列出了模型系數的Omnibus Omnibus TestsTests結果。結果。 (4 4)Model SummaryModel Summary表給出了表給出了-2 -2 對數似對數似然值然值、CoxCox和和SnellSnell的的R2R2以及以及NagelkerkeNagelkerke的的R2R2檢驗統計結果。檢驗統計結果。 (5 5

21、)Hosmer and Lemeshow TestHosmer and Lemeshow TestP值大于0.05,說明模型有一定的解釋能力 (6 6)Classification TableClassification Table分類表說明第一次迭代結果的擬分類表說明第一次迭代結果的擬合效果,從該表格可以看出對于合效果,從該表格可以看出對于y=0y=0,有,有86.7%86.7%的準確性;對于的準確性;對于y=1y=1,有,有76.9%76.9%準確性,因此對于所有個案總共有準確性,因此對于所有個案總共有82.1%82.1%的準確性。的準確性。 (7 7)Variables in the E

22、quationVariables in the Equation表格列出了表格列出了Step 1Step 1中各個變中各個變量對應的系數,以及該變量對應的量對應的系數,以及該變量對應的Wald Wald 統計量值和它對應的相伴概率。統計量值和它對應的相伴概率。從該表格中可以看出從該表格中可以看出x3x3相伴概率最小,相伴概率最小,WaldWald統計量最大,可見該變量在統計量最大,可見該變量在模型中很重要模型中很重要。回歸系數的估計值系數的wald檢驗Exp(beta)的估計值以及區間估計 (8 8)Correlation MatrixCorrelation Matrix表格列出了常數表格列出

23、了常數ConstantConstant、系數之間的相關矩陣。常數與、系數之間的相關矩陣。常數與x2x2之間的之間的相關性最大,相關性最大,x1x1和和x3x3之間的相關性最小之間的相關性最小。 (9 9)圖)圖7-267-26所示是觀測值和預測概率分所示是觀測值和預測概率分布圖。該圖以布圖。該圖以0 0和和1 1為符號,每四個符號代表一為符號,每四個符號代表一個個案。橫坐標是個案屬于個個案。橫坐標是個案屬于1 1的錄屬度,這里的錄屬度,這里稱為預測概率(稱為預測概率(Predicted ProbabilityPredicted Probability)。)。縱坐標是個案分布頻數,反映個案的分布

24、。縱坐標是個案分布頻數,反映個案的分布。 (1010)邏輯回歸的最后一個輸出表格是)邏輯回歸的最后一個輸出表格是Casewise ListCasewise List,列出了殘差大于,列出了殘差大于2 2的個案。的個案。1.根據三個財務比率估計公司破產概率。(數據見根據三個財務比率估計公司破產概率。(數據見ftp 財務比率與破產預財務比率與破產預測測.sav)Y=0,若兩年后破產,若兩年后破產Y=1, 若兩年后仍有償付能力若兩年后仍有償付能力X1=未分配利潤未分配利潤/總資產總資產X2=支付利息稅金前的利潤支付利息稅金前的利潤/總資產總資產X3=銷售額銷售額/總資產總資產按照習題模式,列出最終計

25、算結果,并做出必要解釋。按照習題模式,列出最終計算結果,并做出必要解釋。(Logistic 模型最終表達式模型最終表達式模型檢驗、擬合優度模型檢驗、擬合優度Wald 檢驗檢驗最終分類表、觀測與預測分布圖最終分類表、觀測與預測分布圖系數相關矩陣)系數相關矩陣)作業(共兩題)2.對于對于1986年挑戰者號航天飛機災難之前的年挑戰者號航天飛機災難之前的23次航天飛行,次航天飛行,數據數據 航天飛機熱遇險航天飛機熱遇險.sav給出了飛行時溫度和是否至少給出了飛行時溫度和是否至少有一個主要有一個主要O型圈遭受熱遇險。(數據見型圈遭受熱遇險。(數據見ftp)a)利用利用logistic回歸建立溫度對熱遇險概率的模型,并對效回歸建立溫度對熱遇險概率的模型,并對效應進行解釋。應進行解釋。b)估計挑戰者號飛行時溫度為華氏估計挑戰者號飛行時溫度為華氏31度時的熱遇險概率。度時的熱遇險概率。c)溫度為多少時,概率等于溫度為多少時,概率等于0.50?在該溫度下,給出溫度每?在該溫度下,給出溫度每增加一度導致的概率估計值的線性近似變化。增加一度導致的概率估計值的線性近似變化。d)利用利用wald檢驗,檢驗不存在溫度效應的假設檢驗,檢驗不存在溫度效應的假設 回歸分析是研究變量與變量之間聯系的最回歸分析是研究變量與變量之間聯系的最為廣泛的模型。在實際中,根據變量的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論