第七章回歸分析_第1頁
第七章回歸分析_第2頁
第七章回歸分析_第3頁
第七章回歸分析_第4頁
第七章回歸分析_第5頁
已閱讀5頁,還剩55頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第七章 回歸分析 第一節 Linear過程 線性回歸第二節 Curve Estimation過程 曲線回歸第三節 Logistic過程 羅輯斯諦回歸第四節 Probit過程 概率單位回歸第五節 Nonlinear過程 非線性回歸n回歸的主要內容:n從一組樣本數據出發,確定這些變量間的定量關系式;n對這些關系式的可信度進行各種統計檢驗;n從影響某一變量的諸多變量中,判斷哪些變量的影響顯著,哪些不顯著;n利用求得的關系式進行預測和控制。n回歸的分類:n按是否線性分:線性回歸模型和非線性回歸模型。n按自變量個數分:簡單的一元回歸,多元回歸。n利用SPSS得到模型關系式,是否具有適用性,要看回歸方程的

2、顯著性檢驗(F檢驗)和回歸系數b的顯著性檢驗(T檢驗),還要看擬合程度R2 (相關系數的平方,一元回歸用R square,多元回歸用Adjusted R Square)回歸分析的菜單選項及說明:n在回歸過程中包括:Liner:線性回歸Curve Estimation:曲線估計Binary Logistic: 二分變量邏輯回歸Multinomial Logistic:多分變量邏輯回歸Ordinal 序回歸Probit:概率單位回歸Nonlinear:非線性回歸Weight Estimation:加權估計2-Stage Least squares:二段最小平方法Optimal Scaling 最優

3、編碼回歸 第一節 Linear過程n7.1.1 主要功能n調用此過程可完成二元或多元的線性回歸分析。在多元線性回歸分析中,用戶還可根據需要,選用不同篩選自變量的方法(如:逐步法、向前法、向后法,等)。n一一元線性回歸方程: n多元線性回歸方程:n bxaynnxbxbby.110 回歸方程的假設1數據正態性假設:誤差項的分布與自變量無關,服 從均值0,方差常數的正態分布;2方差齊性假設:對不同的自變量取值條件下,誤差分 布方差相同;3獨立性假設:對不同的自變量取值條件下,誤差分布 期望為0;4無自相關性假設:對不同的自變量取值條件下,誤差 不相關;5隨機誤差與自變量對因變量的影響不相關;4.

4、回歸方程的建立 Enter 所有變量都進入方程(全模型) Remove 根據設定好的條件, 刪除部分變量, 通常根據變量與模型的相關性 Forward 向前選擇 根據條件從無自變量開始逐個選擇適合的變量進入模型 Backward 向后剔除法 根據條件從全模型中逐個剔除變量 Stepwise 逐步進入法 注:衡量變量在回歸模型中作用的大小,一般用偏回歸平方和刻畫,令S(i1, i2, , ik)表示方程中有變量(i1, i2, , ik)時 殘差平方和,則第 i個變量的偏回歸平方和定義為: Pi2= S(i1, i2, im-1,im+1, , ik)S(i1, i2, , ik) Pi越大表明

5、該變量越重要。)5. 參入分析的觀測量的選擇: 利用Selection 變量的取 值實現分析中 CASE的選擇6. Statistics 選項設置: R squared Chang : 表示當回歸方程中引入或剔除 一個變量后R2的改變量。7. 共線性診斷:回歸方程中,雖然各自變量對因變量都是有意義的,但是某些自變量可能彼此相關,即存在共線性問題,因此需要對方程中的自變量進行共線性診斷。 如果存在常數C0 C1 C2,使C0= C1 X1+C2X2 則稱X1,X2具有精確共線性. 如果上式近似成立, 則稱近似共線性 當一組自變量有精確共線性時,必須刪除引起共線性的一個或多個自變量,當共線性為近似

6、時,要把引起共線性的自變量刪除,但必須保證模型丟失信息最少。 共線性診斷常用參數:容許度() 在只有兩個變量的情況下,其間的貢獻性表現在兩個變量間 的相關系數,相關系數為1時,精確共線性,為0時,不存 在共線性。多個變量時,Xi 與其他自變量X之間的復相關 系數的平方體現了共線性,容許度 Toli = 1R2 當容許度較小時,自變量X與其他變量存在共線性。 容許度測量共線性的條件是:觀測量應近似服從正態分布n方差膨脹因子(VIF)n方差膨脹因子 VIF=1/(1R2) 容許度的倒數,值越大,自變量之間存在共線性可能性越大. 條件參數(Condition Index) Condition Ind

7、ex = 條件參數大于等于30時認為有共線性存在的可能性 共線性問題的解決方法. 剔除不重要的有共線性的變量、增加樣本量、重新測量.n7.1.2實例分析 例7.1某醫師測得10名3歲兒童的身高(cm)、體重(kg)和體表面積(cm2)資料如下。試用多元回歸方法確定以身高、體重為自變量,體表面積為應變量的回歸方程。n數據準備:n激活數據管理窗口,定義變量名:體表面積為Y,保留3位小數;身高、體重分別為X1、X2,1位小數。輸入原始數據 。 n數據文件:spssjiaoan例題數據身高體重體表面積回歸n統計分析n激活Anaylze菜單選Regression中的Linear.項,彈出Linear R

8、egression對話框。從對話框左側的變量列表中選y,點擊鈕使之進入Dependent框,選x1、x2,點擊鈕使之進入Indepentdent(s)框;在Method處下拉菜單,共有5個選項:Enter(全部入選法)、Stepwise(逐步法)、Remove(強制剔除法)、Backward(向后法)、Forward(向前法)。本例選用Enter法。點擊OK鈕即完成分析。n結果顯示,本例以X1、X2為自變量,Y為應變量,采用全部入選法建立回歸方程。回歸方程的復相關系數為0.94964,決定系數(即r2)為0.90181,經方差分析,F=34.14499,P=0.0003,回歸方程有效。回歸方程

9、為Y=0.0687101X1+0.183756X2-2.856476。結果輸出: spssjiaoan例題數據身高體重體表面積回歸n實例分析例7.2n建立一個以初始工資Salbegin 、工作經驗prevexp 、工作時間jobtime 、工作種類jobcat 、受教育年限edcu等為自變量,當前工資Salary為因變量的回歸模型。.數據文件:spssjiaoan例題數據回歸方程預測工資 。數據分析:數據文件:spssjiaoan例題數據回歸方程預測工資 。數據分析:1.先做數據散點圖,觀測因變量Salary與自變量Salbegin之間關系是否有線性特點nGraphs -Scatter-Sim

10、plenX Axis: SalbeginnY Axis: Salary2.若散點圖的趨勢大概呈線性關系,可以建立線性回歸模型nAnalyze-Regression-LinearnDependent: SalarynIndependents: Salbegin,prevexp,jobtime,jobcat,edcu等變量nMethod: Stepwisen比較有用的結果:n擬合程度Adjusted R2: 越接近1擬合程度越好n回歸方程的顯著性檢驗Sign回歸系數表Coefficients的Model最后一個中的回歸系數B和顯著性檢驗Sign得模型: Salary=-15038.6+1.37Sa

11、lbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu第二節 Curve Estimation過程7.2.1 主要功能n調用此過程可完成下列有關曲線擬合的功能:n7.2.2實例分析:n例7.3汽車問題n已知汽車 每加侖焰料行駛英里數 mpq 汽車重量 Weight 的一組數據,確定曲線回歸模型 .n數據文件:spssjiaoan例題數據汽車問題曲線回歸數據分析: 先做散點圖(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加侖汽油行駛里程數mpg(Y)隨著汽車自重weight(X)的增加而減

12、少的關系,也發現是曲線關系建立若干曲線模型(可試著選用所有模型Models)Analyze-Regression- Curve EstimationDependent: mpgIndependent: weightModels: 全選(除了最后一個邏輯回歸)選Plot models:輸出模型圖形比較有用的結果:各種模型的Adjusted R2,并比較哪個大,結果是指數模型Compound的Adjusted R2=0.70678最好(擬合情況可見圖形窗口), 結果方程為:mpg=60.15*0.999664weight說明:Growth和Exponential的結果也相同,也一樣。n結果文件:s

13、pssjiaoan例題數據汽車問題曲線回歸n實例操作n例8.2某地1963年調查得兒童年齡(歲)X與錫克試驗陰性率(%)Y的資料如下,試擬合對數曲線。n數據準備n激活數據管理窗口,定義變量名:錫克試驗陰性率為Y,年齡為X,輸入原始數據。n數據文件:spssjiaoan例題數據擬合對數曲線。n激活Anaylze菜單選Regression中的Curve Estimation.項,彈出Curve Estimation對話框。從對話框左側的變量列表中選y,點擊鈕使之進入Dependent框,選x,點擊鈕使之進入Indepentdent(s)框;在Model框內選擇所需的曲線模型,本例選擇Logarit

14、hmic模型(即對數曲線);選Plot models項要求繪制曲線擬合圖;點擊Save.鈕,彈出Curve Estimation:Save對話框,選擇Predicted value項,要求在原始數據庫中保存根據對數方程求出的Y預測值,點擊Continue鈕返回Curve Estimation對話框,再點擊OK鈕即可。 n結果解釋n在結果輸出窗口中將看到如下統計數據:n在以X為自變量、Y為應變量,采用對數曲線擬合方法建立的方程,決定系數R2=0.913(接近于1),作擬合優度檢驗,方差分析表明:F=52.32,P=0.001,擬合度很好,對數方程為:Y=61.3259+20.6704lnX。n結

15、果文件:spssjiaoan例題數據擬合對數曲線。第三節二項邏輯回歸(Binary Logistic)n 7.3.1 主要功能n調用此過程可完成Binary Logistic回歸的運算。所謂Binary Logistic回歸,是指應變量為二級計分或二類評定的回歸分析,這在醫學研究中經常遇到,如:死亡與否(即生、死二類評定)的概率跟病人自身生理狀況和所患疾病的嚴重程度有關;對某種疾病的易感性的概率(患病、不患病二類評定)與個體性別、年齡、免疫水平等有關。此類問題的解決均可借助邏輯回歸來完成。n本節介紹的Binary Logistic過程,應與日常所說的Logistic曲線模型(即S或倒S形曲線)

16、相區別。用戶如果要擬合Logistic曲線模型,可調用第二節Curve Estimation過程,系統提供11種曲線模型,其中含有Logistic曲線模型。 nLogistic回歸方程為n7.3.2 實例操作n例7.3某醫師研究男性胃癌患者發生術后院內感染的影響因素,資料如下表,請通過Logistic回歸統計方法對主要影響因素進行分析。n數據文件:spssjiaoan例題數據術后感染的Logistic回歸n數據準備n激活數據管理窗口,定義變量名:術后感染為Y(字符變量,有輸入Y、無輸入N),年齡為X1,手術創傷程度為X2,營養狀態為X3,術前預防性抗菌為X4(字符變量,有輸入Y、無輸入N),白

17、細胞數為X5,癌腫病理分度為X6。按要求輸入原始數據。n統計分析n激活Anayzle菜單選Regression中的Binary Logistic 項,彈出Logistic Regression對話框。從對話框左側的變量列表中選y,點擊鈕使之進入Dependent框,選x1、x2、x3、x4、x5和x6,點擊鈕使之進入Covariates框;n點擊Method處的下拉按鈕,系統提供7種方法:n1、Enter:所有自變量強制進入回歸方程;n2、Forward: Conditional:以假定參數為基礎作似然比概率檢驗,向前逐步選擇自變量;n3、Forward: LR:以最大局部似然為基礎作似然比概

18、率檢驗,向前逐步選擇自變量;n4、Forward: Wald:作Wald概率統計法,向前逐步選擇自變量;n5、Backward: Conditional:以假定參數為基礎作似然比概率檢驗,向后逐步選擇自變量;n6、Backward: LR:以最大局部似然為基礎作似然比概率檢驗,向后逐步選擇自變量;n7、Backward: Wald:作Wald概率統計法,向后逐步選擇自變量。n選用Forward: Conditional法,以便選擇有主要作用的影響因素;點擊Options.鈕,彈出Logistic Regression:Options對話框,在Display框中選取At last step項,要

19、求只顯示最終計算結果,點擊Continue鈕返回Logistic Regression對話框,再點擊OK鈕即可。 n結果表明,第一步自變量X3入選,方程分類能力達80.00%;第二步自變量X6入選,方程分類能力達93.33%(參見結果中的分類分析表);方程有效性經2檢驗,2=15.276,P=0.0005。nLogistic回歸的分類概率方程為:n e-219.405+54.517X3+18.280X6nP = n 1+ e-219.405+54.517X3+18.280X6n根據該方程,若一胃癌患者營養狀態評分(X3)為3,癌腫病理分度(X6)為9,則其P=4.510-270,這意味著術后將

20、發生院內感染;另一胃癌患者營養狀態評分(X3)為1,癌腫病理分度(X6)為4,則其P=0.981051,這意味著術后將不會發生院內感染。n結果文件:spssjiaoan例題數據術后感染的Logistic回歸n 第四節 Probit過程(概率單位回歸)n7.4.1 主要功能n調用此過程可完成劑量-效應關系的分析。通過概率單位使劑量-效應的S型曲線關系轉化成直線,從而利用回歸方程推算各效應水平的相應劑量值。n7.4.2 實例操作n例7.4研究抗瘧藥環氯胍對小白鼠的毒性,試驗結果如下表所示。試計算環氯胍的半數致死劑量。n數據準備n激活數據管理窗口,定義變量名:劑量為DOSE、試驗動物數為OBSERV

21、E、死亡動物數為DEATH。然后輸入原始數據。n 統計分析:激活Anayzle菜單選Regression中的Probit.項,彈出Probit Analysis對話框。從對話框左側的變量列表中選death,點擊鈕使之進入Response Frequency框;選observe,點擊鈕使之進入Total Observed框;選dose,點擊鈕使之進入Covariate(s)框,并下拉Transform菜單,選Log base 10項(即要求對劑量進行以10為底的對數轉換)。 n系統在Model欄中提供兩種模型,一是概率單位模型(Probit),另一是比數比自然對數模型(Logit)。本例選用概率

22、單位模型。n點擊Options.鈕,彈出Probit Analysis: Options對話框,在Natural Response Rate欄選Calculate from data項,要求計算各劑量組的實際反應率。之后點擊Continue鈕返回Probit Analysis對話框,再點擊OK鈕即可。 n結果解釋n在結果輸出窗口中將看到如下統計數據:n系統首先顯示,共有7組原始數據采概率單位模型進行分析。回歸方程的各參數在經過14次疊代運算后確定,即PROBIT = 5.95215 - 4.66313X 。該方程擬合優度2檢驗結果,2 = 0.833,P=0.934,擬合良好。n結果文件:sp

23、ssjiaoan例題數據半數致死劑量概率單位回歸n接著,系統顯示劑量對數值(DOSE)、實際觀察例數(Number of Subjects)、試驗動物反應數(Observed Responses)、預期反應數(Expected Responses)、殘差( Residual)和效應的概率(Prob)。之后,顯示各效應概率水平的劑量值及其95%可信區間值,按本例要求,環氯胍的半數致死劑量(即Prob = 0.50時)為6.07347,其95%可信區間為1.863057.54282。 n最后,系統輸出以劑量對數值為自變量X、以概率單位為應變量Y的回歸直線散點圖,從圖中各點的分布狀態亦可看出,回歸直

24、線的擬合程度是很好的。 第五節 Nonlinear過程n7.5.1 主要功能n調用此過程可完成非線性回歸的運算。所謂非線性回歸,即為曲線型的回歸分析,一些曲線模型我們已在本章第二節中述及。但在醫學研究中經,還經常會遇到除本章第二節中述及的之外的曲線模型,對此,SPSS提供Nonlinear過程讓用戶根據實際需要,建立各種曲線模型以用于研究變量間的相互關系。在醫學中,如細菌繁殖與培養時間關系的研究即可借助Nonlinear過程完成。n下面一些曲線模型是在論文中較常見的,提供應用時作參考: n7.5.2 實例操作n檢查某一藥品在應用于某一對象后的濃度變化情況days(日期)bod(濃度)。數據文件:spssjiaoan例題數據非線性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論