logistic回歸介紹_第1頁
logistic回歸介紹_第2頁
logistic回歸介紹_第3頁
logistic回歸介紹_第4頁
logistic回歸介紹_第5頁
免費預覽已結束,剩余18頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、logistic 回歸介紹之三 logistic 回歸的應用條件logistic回歸與多重線性回歸一樣,在應用之前也是需要分析一下資料是否可以采用logistic回歸模型。并不是說因變量是分類變量我就可以直接采用logistic回歸,有些條件仍然是需要考慮的。首要的條件應該是需要看一下自變量與因變量之間是什么樣的一種關系。多重線性回歸中,要求自變量與因變量符合線性關系。而logistic回歸則不同,它要求的是自變量與logit(p)符合線性關系,所謂logit實際上就是ln(P/1-P)。也就是說,自變量應與ln(P/1-P)呈線性關系。當然,這種情形主要針對多分類變量和連續變量。對于二分類變

2、量就無所謂了,因為兩點永遠是一條直線。這里舉一個例子。某因素y與自變量x之間關系分析,y為二分類變量,x為四分類變量。如果x的四分類直接表示為1,2,3,4。則分析結果為p=0.07,顯示對y的影響在0.05水準時無統計學意義,而如果將x作為虛擬變量,以1為參照,產生x2,x3,x4三個變量,重新分析,則結果顯示:x2,x3,x4的p值分別為0.08,0.05和0.03。也就是說,盡管2和1相比無統計學意義,但3和1相比,4和1相比,均有統計學意義。為什么會產生如此結果?實際上如果仔細分析一下,就可以發現,因為x與logit(y)并不是呈線性關系。而是呈如下圖的關系:這就是導致上述差異的原因。

3、從圖中來看,x的4與1相差最大,其次是2,3與1相差最小。實際分析結果也是如此,上述分析中,x2,x3,x4產生的危險度分別為3.1,2.9,3.4。因此,一開始x以1,2,3,4的形式直接與y進行分析,默認的是認為它們與logit(p)呈直線關系,而實際上并非如此,因此掩蓋了部分信息,從而導致應有的差異沒有被檢驗出來。而一旦轉換為虛擬變量的形式,由于虛擬變量都是二分類的,我們不再需要考慮其與logit(p)的關系,因而顯示出了更為精確的結果。最后強調一下,如果你對自變量x與y的關系不清楚,在樣本含量允許的條件下,最好轉換為虛擬變量的形式,這樣不至于出現太大的誤差。如果你不清楚應該如何探索他們

4、的關系,也可以采用虛擬變量的形式,比如上述x,如果轉換的虛擬變量x2,x3,x4他們的OR值呈直線關系,那x基本上可以直接以1,2,3,4的形式直接與y進行分析。而我們剛才也看到了,x2,x3,x4的危險度分別為3.1,2.9,3.4。并不呈直線關系,所以還是考慮以虛擬變量形式進行分析最好??傊?,虛擬變量在logistic回歸分析中是非常有利的工具,善于利用可以幫助你探索出很多有用的信息。統計的分析策略是一個探索的過程,只要留心,你就會發現在探索數據關系的過程中充滿了樂趣,因為你能發現別人所發現不了的隱藏的信息。希望大家多學點統計分析策略,把統計作為一種藝術,在分析探索中找到樂趣。SPSS 學

5、習筆記之二項 Logistic 回歸分析(2012-08-1814:38:17)轉載標簽:分類:SPSSspsslogistic 回歸統計一、概述Logistic回歸主要用于因變量為分類變量(如疾病的緩解、不緩解,評比中的好、中、差等)的回歸分析,自變量可以為分類變量,也可以為連續變量。他可以從多個自變量中選出對因變量有影響的自變量,并可以給出預測公式用于預測。因變量為二分類的稱為二項logistic回歸,因變量為多分類的稱為多元logistic回歸。下面學習一下Odds、OR、RR的概念:在病例對照研究中,可以畫出下列的四格表:暴露因素病例對照日,非暴露Odds:稱為比值、比數,是指某事件發

6、生的可能性(概率)與不發生的可能性(概率)之比。在病例對照研究中病例組的暴露比值為:oddsl=(a/(a+c)/(c(a+c)=a/c對照組的暴露比值為:odds2=(b/(b+d)/(d/(b+d)=b/dOR:比值比,為:病例組的暴露比值(odds1)/X 寸照組的暴露比值(odds2)=ad/bc換一種角度,暴露組的疾病發生比值:oddsl=(a/(a+b)/(b(a+b)=a/b非暴露組的疾病發生比值:odds2=(c/(c+d)/(d/(c+d)=c/dOR=odds1/odds2=ad/bc與之前的結果一致OR的含義與相對危險度相同,指暴露組的疾病危險性為非暴露組的多少倍。OR1

7、說明疾病的危險度因暴露而增加,暴露與疾病之間為“正”關聯;OR1說明疾病的危險度因暴露而減少,暴露與疾病之間為“負”關聯。還應計算OR的置信區間,若區間跨1,一般說明該因素無意義。關聯強度大致如下:OR值聯系強度0.9-1.01.0-1.1無0.7-0.81.2-1.4弱(前者為負關聯,后者為正關聯)0.4-0.61.5-2.9中等(同上)0.1-0.33.0-9.0強(同上)0.110.0以上很強(同上)RR:相對危險度(relativerisk)的本質為率比(rateratio)或危險比(riskratio),即暴露組與非暴露組發病率之比,或發病的概率之比。但是病例對照研究不能計算發病率,

8、所以病例對照研究中只能計算 OR。當人群中疾病的發病率或者患病率很小時,OR 近似等于 RR,可用 OR 值代替 RR。不同發病率情況下,OR 與 RR 的關系圖如下:IncidenceArnanqtheNonexpos弓口bloc-siriskcorn,cn/u/i153355774當發病率1 時,OR 高估了 RR,當 ORF轉換w的1少H彷3白噫巴魄J庭由雷幫眄時.國”口,怛固斯戢iI甲 i 中說件用盤 I目殍爽玨中:裝甲展送女丁/存口洲ji 融甘暮年歸 md工群 krnolun6屆左耳用佰 dcH 嗣/涼 JQ 收入 HNgq|/tfttiftAltdr*iK花用率攵青:zre 北在此

9、,注地質餐出北附*是否甄攵賭益【會加肥6丫刈*點擊確定,完成變量計算2、統計菜單選擇卜lid泡*:二二.BBBBBBBBBBa a: :88HBB88HBBS SHHSa3HHSa3由 Mg 型學法量力-8F 與聿邛心8F 書拄二旬三期用 IH 日股期 eme 由眼稟悻/變,舊.轉換分析g)直銷出)圖/(包實用程序窗口也)希助addrC705625023n報告描逑統計衰(T)比較均值國)一般線性福蟹廠義線性模型混合模型理)相關&)回歸回對默線性根空(2)神經網絡分類舊筮曲aI亡Cfeddebtothdebt9.3011365.017.301364005.50S62172.902.66,

10、827301.793。aH雌 33函曲魄估計&.1回部分最公平方4,二元Logistic.3RHi進入如下的對話框(下文稱“主界面”):將“是否拖欠貸款default”作為因變量選入“因變量”框中。將其與變量選入“協變量”框中,下方的“方法”下拉菜單選擇“向前:LR”(即前向的最大似然法,選擇變量篩選的方法,條件法和最大似然法較好,慎用Wald法)。將“validate”變量選入下方的“選擇變量”框。點擊“選擇變量”框后的“規則”按鈕,進入定義規則對話框:E3Loeistic區定義選擇規則validateLocistic回歸等于值5hlI設置條件為“validated”,點擊“繼續”按

11、鈕返回主界面:點擊右上角“分類”按鈕,進入如下的對話框:該對話框用來設置自變量中的分類變量,左邊的為剛才選入的協變量,必須將所有分類變量選入右邊的“分類協變量框中”。本例中只有“教育程度ed”為分類變量,將它選入右邊框中,下方的“更改對比”可以默認。點擊“繼續”按鈕返回主界面?;氐街鹘缑婧簏c擊“選項”按鈕,進入對話框::.:!Lnsistic回歸:選項統計量和圖unaii!Binvt-fiBiimiiar分類國VHosrn即LeEShcw擬合度1H)迭代田史記錄Q)回),卜離群值。所有個案-輸出荏每個步驟中但)在最后 T步驟中(口在模型中包括后數值取捎幫助勾選“分類圖”和“Hosmer-Lem

12、eshow擬合度”復選框, 輸出欄中選擇“在最后一個步驟中”,其余參數默認即可?!癏osmer-Lemeshow擬合度”能較好的檢驗該模型的擬合程度。點擊繼續回到主界面,點擊“確定”輸出結果。四、結果分析估計值的相關性舊),;.個案的豉差列表)加日的GKX);標漉差步進艱軍進入典x叵三|刪除。:Tin分類標唯值電).京火迭代汶數網X20磅加瞿的事冽*hl百分比再定軍的包恬在分析中rQD1Q0,G裝裝案例00Si+70D1DQ0匍康定的案留C&目計70010009 鄴曾孜仃鵬,也甘見牙菸晨以我 H 宴網總粗*打黜通向由值W。II1制舞變*ifi 錯MX更磔壟的40(2)網他酒水平Didn

13、tfftompiek 一曲由 0。13721000o 的CM040HighschooldecreeI3Booo10 時900oooSom21 伯電S7D00阿1000喻 0Collegedegree相ooaOftGaoo1.000Poibunaargraduteaaore5m。Q9QOQQg以上是案例處理摘要及變量的編碼模型匯總-2時熱似數值Cox&SnellR力NagelkerkeRh4&56.Z323.,298.436a因為在敢估計的更改范圍小F.001*所以拈計在迭鼠次數6處終止口上表是關于模型擬合度的檢驗。這用Cox&SnellR方和NegelkerkeR方代替

14、了線性回歸中的R方,他們呢的值越接近1,說明擬合度越好,這個他們分別為0.298和0.436,單純看這一點,似乎模型的擬合度不好,但是該參數主要是用于模型之間的對比。=Hosmer 和 Lcmeshow 檢驗=步驟卡方dfSig.48.5568381這是H-L檢驗表,P=0.3810.05接受0假設,認為該模型能很好擬合數據Hosmer 和 Lemesh檢除的舐機件上是言拖欠款No是方幡父道就二腌總計己觀測j朋明伯蛔個伯一山線417069669033170269685541.4467036466.53953.4617046463.521664797056559.692510.308706505

15、5.1412014.859707484gol52220.984708434T0002729.00070g3230.-1703839,53070101213.3975856,60370H-L檢驗的隨機性表,比較觀測值與期望值,表中觀測值與期望值大致相同,可以直觀的認為,該模型擬合度較好G 另起 u二 MTK 陽。分比桂正W 也Vi).J4”1:隊陽;Nr?思訃白仃”47a抬39被S35314IJaD*加相由史的蜜初.舊此.山時桿*逸丘的事擱舉玨美b.L.;.-1;.I;J?.曲Wm柜E白1c.L:.丁工爐俯皿ml日E1d.I.I;sno這個是最終模型的預測結果列聯表。在700例數據中進行預測,在

16、未拖欠貸款的478+39=517例中,有478例預測正確, 正確率92.5%;在91+92=183例拖欠貸款的用戶中, 有92例預測正確, 正確率50.3%。總的正確率81.4%??梢钥闯鲈撃P蛯τ诜峭锨焚J款者預測效果較好。力器中的殳AtaSEfMs曲Exp 網-型 enrplcy-.243J02S741ST00 丁-785addrews-.0*1C2C17143i000.H22debtincmeJ19zees?1,OT01.092cruddebt.573OB?43109*0001774A3*H252gg就1002a.rA4y;這是最終擬合的結果,四個變量入選,P值均一一一_-匚T五d 巨,岳-*匚匚一 i_2匚一一,.一_._,一一-匚 iw_ISA_三 4rr-rraf1fQ8M二匚二-_*、*一一七二;二匚Pb6.2/1.5.:.ft&1Crw!ffiKiKMra 皿 ffliNsm 國 0間加出 gEiioiffi 國 BoftfflamsMnrmmmYYrrmTmnrrmrmrrmYmTmmnnmnrrr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論