




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
復習:1.多元統計分析中指標的量化法2.多元線性回歸分析的數據結構與模型3.多元線性回歸分析的具體任務4.篩選變量的常用方法5.多元線性回歸分析的實現方法
1.多元統計分析指標的量化法:(1)二分類(2)無序多分類(3)有序多分類2.多元線性回歸分析的數據結構與模型:3.多元線性回歸分析的具體任務1)采用最小二乘法原理確定方程中系數bii=0,1,2,3…p;2)采用F檢驗對回歸方程整體進行假設檢驗;3)采用t檢驗對方程中的每個系數bi進行假設檢驗。4)結合專業給出合理的解釋。4.篩選變量的常用方法向前法(forwardselection)后退法(backwardselection)逐步回歸法(stepwiseselection)5.多元線性回歸的實現過程操作過程:Analyze---Regression---Linear---y選入Dependent---x1、x2、X3選入Independent---Stepwise---options--oklogisticregressionanalysisLogistic回歸內容:(一)基本概念和原理
1.應用背景
Logistic回歸模型是一種概率模型,適合于病例—對照研究、隨訪研究和橫斷面研究,且結果發生的變量取值必須是二分的或多項分類。可用影響結果變量發生的因素為自變量與因變量,建立回歸方程。
設資料中有一個因變量y、p個自變量x1,x2,…,xp,對每個實驗對象共有n次觀測結果,可將原始資料列成表1形式。2、Logistic回歸模型的數據結構表1Logistic回歸模型的數據結構實驗對象yX1X2X3….XP
1y1a11a12a13…a1p
2y2a21a22a23…a2p
3y3a31a32a33…a3p
…
nynan1an2an3…anp
━━━━━━━━━━━━━━━━━━
表2肺癌與危險因素的調查分析例號是否患病性別吸煙年齡地區101030020014613100351………………30100261
注:是否患病中,‘1’代表否,‘0’代表是。性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙。地區中,‘1’代表農村,‘0’代表城市。
表3配對資料(1:1)對子號病例對照x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白質攝入量,取值:0,1,2,3X2不良飲食習慣,取值:0,1,2,3X3精神狀況,取值:0,1,2
Logistic回歸
--Logistic回歸與多重線性回歸聯系與區別聯系:
用于分析多個自變量與一個因變量的關系,目的是矯正混雜因素、篩選自變量和更精確地對因變量作預測等.區別:
線性模型中因變量為連續性隨機變量,且要求呈正態分布.Logistic回歸因變量的取值僅有兩個,不滿足正態分布.3、Logistic回歸模型
令:y=1
發病(陽性、死亡、治愈等)
y=0
未發病(陰性、生存、未治愈等)將發病的概率記為P,它與自變量x1,x2,…,xp之間的Logistic回歸模型為:可知,不發病的概率為:
經數學變換得:定義:為Logistic變換,即:
4、回歸系數βi的意義
流行病學的常用指標優勢比(oddsratio,OR)或稱比數比,定義為:暴露人群發病優勢與非暴露人群發病優勢之比。即Xi的優勢比為:故對于樣本資料OR=exp()95%置信區間為:可見是影響因素Xi增加一個單位所引起的對數優勢的增量,反映了其對Y作用大小。如果要比較不同因素對Y作用大小,需要消除變量量綱的影響,為此計算標準化回歸系數5.假設檢驗(1)回歸方程的假設檢驗H0:所有H1:某個計算統計量為:G=-2lnL,服從自由度等于n-p的分布(2)回歸系數的假設檢驗H0:H1:計算統計量為:Wald,自由度等于1。(二)Logistic回歸類型及其實例分析
1、非條件Logistic回歸當研究設計為隊列研究、橫斷面研究或成組病例對照研究時,要用非條件Logistic回歸。實例1
某研討究者調查了30名成年人,記錄了同肺癌發病的有關因素情況,數據見表4。其中是否患病中,‘1’代表否,‘0’代表是.性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙.地區中,‘1’代表農村,‘0’代表城市。試分析各因素與肺癌間的關系。表4肺癌與危險因素的調查分析例號是否患病性別吸煙年齡地區101030020014613100351………………30100261注:是否患病中,‘1’代表否,‘0’代表是。性別中‘1’代表男,‘0’代表女,吸煙中‘1’代表吸煙,‘0’代表不吸煙。地區中,‘1’代表農村,‘0’代表城市。Datalog1;Infile’log1.dat’;-----------讀取數據Inputnyx1-x4@@;-----------指出變量Proclogistic;----------調logistic回歸模塊modely=x1;run;-----------作單變量(x1)分析Proclogistic;modely=x2;run;Proclogistic;modely=x3;run;Proclogistic;modely=x4;run;Proclogistic;modely=x1-x4;run;------------作多變量分析dataa;infile'd:/a.xls';inputabyx1-x22;要導入()Procprint;Run;proc
logistic;modely=x1-x4;run;
表6
單因素Logistic回歸分析結果
模型號變量系數標準誤Wald卡方P值
1X11.70470.80064.53440.03322X22.56490.93647.50290.00623X30.14280.04679.34090.00224X4-0.27190.73870.13550.7128
結果表明,性別,吸煙,年齡三個因素都與肺癌有關.由于在對某一因素進行單因素分析時沒有控制其它因素的干擾,因此結果不可靠.表7多元Logistic回歸分析結果變量系數標準誤Wald卡方P值INTERCPT-9.754.095.660.02X12.521.821.920.17X23.981.984.060.04X30.190.085.670.02X4-1.301.580.680.41
由上最大似然估計分析知因素X2(吸煙),X3(年齡)對肺癌的發生有顯著的影響。所得的回歸方程為:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.SPSS操作步驟:Analyze-----Regression-----BinaryLogistic-----Dependent框(y)-----Covariates框(x1,x2,…)------ok非條件Logistic回歸
SPSS操作步驟:
結果表明,性別,吸煙,年齡三個因素都與肺癌有關.由于在對某一因素進行單因素分析時沒有控制其它因素的干擾,因此結果不可靠.單因素分析的結果多因素分析的結果
由上最大似然估計分析知因素X2(吸煙),X3(年齡)對肺癌的發生有影響。所得的回歸方程為:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.2.條件logistic回歸分析配對設計的類型:1:1、1:m、n:m(可采用分層COX模型來擬合)。例如:某市調查三種生活因素與胃癌的關系,資料見表5。表5配對資料(1:1)對子號病例對照x1x2x3x1x2x3113010120311303012020…10222000注:X1蛋白質攝入量,取值:0,1,2,3X2不良飲食習慣,取值:0,1,2,3X3精神狀況,取值:0,1,2datalog2;inputnoyx1x2x3;---輸入變量cards;10130(對子號、病人、x1、x2、x3)11101(對子號、對照、x1、x2、x3)2003121130..101000;procphreg;------調用實現條件
Logistic回歸和COX回歸模塊modely=x1;------作單變量分析stratano;run;procphreg;modely=x1-x3;------作多變量分析stratano;run;配對Logistic回歸SPSS操作步驟:Analyze-----Survival----COXRegression-----Time框(outcome)-----Status框(Status)-----DefineEvent:Singlevalue1:continue-----Covariates框(x1、x2、x3)-----Strata框(id)---Options---atlaststep------ok3、逐步Logistic回歸分析(1)向前法(forwardselection)
開始方程中沒有變量,自變量由少到多一個一個引入回歸方程。按自變量對因變量的貢獻(P值的大小)由小到大依次挑選,變量入選的條件是其P值小于規定進入方程的P界值Enter,缺省值P(0.05)。(2)后退法(backwardselection)
開始變量都在方程中,然后按自變量因變量的貢獻(P值的大小)由大到小依次剔除,變量剔除的條件是其P值小于規定的剔除標準Remove,缺省值p(0.10)。
(3)逐步回歸法
逐步引入-剔除法(stepwiseselection)
前進逐步引入-剔除法是在前進法的思想下,考慮剔除變量,因此有兩個p界值Enter,Remove。SPSS無論是條件還是非條件Logistic回歸,在多變量分析時均可以采用逐步回歸方法,實現的方法是:在method后加選項:Enter:所有變量一次全部進入方程。Forward:逐步向前法Backward:后退法變量移出方程所采取的檢驗方法:Conditional;LR;Ward(盡量不用)二分類Logistic回歸method中文名稱剔除依據Enter全部進入Forward:conditional向前逐步條件參數估計似然比PForward:LR向前逐步最大偏似然估計似然比PForward:Wald向前逐步Wald統計量PBackward:conditional向后逐步條件參數估計似然比PBackward:LR向后逐步最大偏似然估計似然比PBackward:Wald向后逐步Wald統計量PLogistic回歸—檢驗方法
似然比檢驗(likelihoodratiotest)記分檢驗(scoretest)Wald檢驗三種方法比較通常應用似然比檢驗結果相對較可靠.在小樣本情況下記分的分布根接近于卡方分布,所以記分檢驗導致的第Ⅰ類錯誤的可能性要小一些.Wald檢驗在計算和使用上較容易.但是結果略偏于保守.通常在樣本較大時三種檢驗的結果是一致的.SPSS軟件實現方法
File→Open→相應數據(已存在)→Statistics→Regression→BinaryLogistic→Dependent(y)→Covariates(自變量)→Mothod(逐步回歸方法)→Specifymodel(單因素或多因素)→save(欲保存的內容)→Options(輸出選項)→OK
調試法:P從大到小取值0.5,0.1,0.05…,一般實際用時,Enter、Remove應多次選取調整解釋
設第i個因素的回歸系數為bi,表示當有多個自變量存在時,其它自變量固定不變的情況下,自變量Xi每增加一個單位時,所得到的優勢比的自然對數。當bi>0時,對應的優勢比(oddsratio,記為ORi):ORi=exp(bi)>1,說明該因素是危險因素;當bi<0時,對應的優勢比ORi=exp(bi)<1,說明該因素是保護因素。
Logistic回歸—回歸系數解釋1.如果考察的自變量是定性的
此時計算的exp(βi)是該定性變量取相鄰兩個等級時的比數比。
βi>0,即exp(βi)>1:表明該變量每上一個等級比數比就在原來的基礎上擴大exp(βi)倍;
βi<0,即exp(βi)<1,表明該變量每下一個等級比數比就在原來的基礎上減低1/exp(βi)倍;
Logistic回歸—回歸系數解釋
2.考察的自變量是定量的
此時計算的exp(βi)是在其他變量保持不變的情況下,該變量每增加一個單位比數比(OR值)就增加exp(βi)倍。
βi>0,即exp(βi)>1:表明該變量每增加一個單位比數比就在原來的基礎上擴大exp(βi)倍;
βi<0,即exp(βi)<1,表明表明該變量每減少一個單位比數比就在原來的基礎上降低1/exp(βi)倍;Logistic回歸—標準回歸系數解釋
如果比較各自變量對反應變量Y的貢獻愛女大小時,需要消除量綱的影響.可以先將各自變量標準化后再進行Logistic回歸,然后比較各自變量的回歸系數的大小,即可判斷各自變量對Y的貢獻大小.各自變標化后得到的回歸方程的回歸系數就稱為標準回歸系數,其可以直接用于比較各自變量對反應變量的貢獻大小.一般程序直接給出標準回歸系數.
Logistic逐步回歸結果
ParameterStandardWaldPr>RiskVariableDFEstimateErrorChi-SquareChi-SquareRatio
X211.22180.84102.11070.14633.393
X312.29471.80721.61240.20429.922
采用Logistic逐步回歸:Proclogistic;modely=x1-x3/nointselection=stepwiseale=0.5sls=0.3;Run;Block1:Method=ForwardStepwise(LikelihoodRatio)
在本例中不良飲食習慣X2,取值:0、1,2、3,b=3.021,OR=20.505,表示不良飲食習慣是危險因素;精神狀況X3,取值:0、1、2,b=0.054,OR=1.161,表示精神狀況不良影響發病,是危險因素。4.Logistic回歸--Logistic回歸種類成組資料的非條件Logistic回歸配對資料的條件Logistic回歸兩分類反應變量的Logistic回歸多分類有序反應變量Logistic回歸多分類無序反應變量Logistic回歸1:1配對資料的條件Logistic回歸1:m配對資料的條件Logistic回歸n:m配對資料的條件Logistic回歸Logistic回歸分析注意
自變量是多分類(n)無序變量時,需要先轉換成n-1個啞變量,以啞變量進行分析。自變量為連續變量時回歸系數的解釋。連續自變量是否轉換成分組變量視具體情況而定;
例
現對乳腺癌患者的數據進行分析,其中的變量包括年齡(age)、患病時間(time)、腫瘤擴散等級(pathscat)、腫瘤大小(patsize)、腫瘤史(histgrad)和癌變部位的淋巴結是否含有癌細胞In_yesno,建立一個模型,對癌變部位的淋巴結是否含有癌細胞的情況進行預測.SPSS程序操作analyze—regression—binarylogisticdependent:In_yesnocovariates:agepathscatpathsizetimehistgrad(自(協)變量)method:entercatergorical:pathscathistgrad(多分類協變量)changecontrast:referencecatergoryfirst--chang(多分類協變量類間多重比較及比較方法選擇)---continue--ok二分類Logistic回歸—多重比較的方法Indicator—第一類或最后一類為參照類,每一類與參照類比較Simple------除參照類外,每一類與參照類比較Difference-除第一類外,每一類與其前各類的平均
效應比較,有稱反HelmertHelmert----除最后一類外,每一類與其后各類的平均Repeated—相鄰兩類比較,除第一類外,每類與其前一比較Polynominal—正交多名義分類比較,該法假設每一分類都有相等的空間,僅適于數值變量Deviation—除參照類外,每一類與總效應比較二分類Logistic回歸—多重比較的方法Referencecatergory—
參照類的選擇,有第一類和最后一類兩種選擇。Indicator、Simple、Deviation方法可選第一類,也可選最后一類。二分類Logistic回歸—頻數資料分析例成組病例-對照研究。在飲酒與食道癌的病例-對照研究中,考慮到年齡可能是混雜因素,按年齡分層后資料整理如下變量標示ID病例:1對照:0Drink飲酒:1不飲酒:0Age年齡1(25-34),2(34-44),3(45-54),4(55-64),5(65-74),6(75-85)二分類Logistic回歸—頻數資料分析表飲酒與食道癌關系的研究資料年齡組病例對照飲酒不飲酒飲酒不飲酒1(25-34)2(35-44)3(45-54)4(55-64)5(65-74)6(75-85)合計1091064526164252129138423427138193618885803196104109665二分類Logistic回歸—頻數資料分析頻數加權:DATA--WEIGHTCASES--WEIGHTCASESBYFREQ--OKANALYZE—REGRESSION—BINARYLOGISTICDEPENDENT:IDCOVARIATES:DRINK,AGE
MTHOD:ENTERCATERGORICAL:AGECHANGENTRASTREFERENCECATERGORYFIRST--CHANGE------CONTINUE-----OKLogistic回歸—
多分類有序Logistic回歸(BinaryLogisticRegression)特征
因變量是多(k水平)分類有序變量;每個水平建立一個回歸方程;自變量是連續變量或分類變量.多分類有序Logistic回歸--實例分析例研究性別和兩種治療方法對某疾病療效的影響。療效的評價分為3個有序等級:顯效、有效和無效,資料見下表,試用有序分類logistic模型進行分析療效與性別和治療方案的關系。多分類有序Logistic回歸--實例分析表性別和兩種治療方法對某病療效的影響性別女X1=0新藥療法(X2=0)165627治療方法療效(Y)顯效(Y=1)有效(Y=2)無效(Y=3)合計傳統療法(X2=1)671932新藥療法(X2=0)52714傳統療法(X2=1)101011男X1=1DATA--WEIGHTCASES--WEIGHTCASESBY–FREQ----OK
ANALYZE--REGRESSION--ORDINAL…--DEPENDENTID----COVARIATESEX,TREAT--------OKLogistic回歸—多分類無序Logistic回歸特征
因變量是多(水平)分類且各水平之間沒有遞增或遞減關系,即反應變量是多分類名義變量;每個水平建立一個回歸方程;自變量是連續變量或分類變量.方法
擬合一個通用Logistic模型(generallogisticmodel).多分類無序Logistic回歸—實例分析例1992年美國總統選舉的數據,候選人為Bush(布什)、Perot(帕羅特)、Clinton(克林頓),評價分析不同選民的投票情況。因變量:pred92自變量:edu:受教育程度degree:學歷sex:性別多分類無序Logistic回歸—實例分析變量標示因變量:
Pres921=Bush2=Perot3=Clinton自變量:sex1=famlae,2=maleedu0=高中以下1=高中2=大專3=學士4=研究生多分類無序Logistic回歸—實例分析SPSS程序操作Analyze—Regression—MultinomialLogistic-----Depenfent:Pres92-----Factor:sexedu--------OK例3實戰練習據報道目前全世界每年的自殺率為10/10萬,我國自殺率為23/10萬,我國高校自殺率則為2/10萬。為了了解當代大學生綜合素質現狀、為了進行提高大學生綜合素質的對策研究,利用中國現場統計研究會教育統計與管理專業學會設計的《中國大學生綜合素質調查問卷》,采用分層整群抽樣,選擇了不同年級、不同性別、不同專業以及不同生源的醫學大學生554名的調
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CAS 907-2024面向分布式天然氣供應的智能化系統技術要求
- T/CCOA 76-2023濃香核桃油
- 北京市消費類預付費服務交易合同行為指引(試行)(標準版)5篇
- 有關印刷品訂貨合同7篇
- 專業版抵押房子借款協議8篇
- T/ZRCX 004-2018集成灶
- 眼科疾病常用穴位
- T/ZHCA 105-2022靈芝子實體
- 癲癇預防與急救
- 健康促進單位創建課件
- 2024年浙江省中考社會試卷真題(含標準答案及評分標準)
- 第五版-FMEA培訓教材-新版
- NB-T32036-2017光伏發電工程達標投產驗收規程
- 食品安全與日常飲食智慧樹知到期末考試答案章節答案2024年中國農業大學
- 七人學生小品《如此課堂》劇本臺詞手稿
- 吊具與索具點檢表
- microRNA研究 ppt課件
- 甲醇及制氫裝置預試車方案
- 單片機課件第8章存儲器的擴展
- 分子的立體構型
- 英文版簡易-電商送貨單-產品隨行單模板
評論
0/150
提交評論