




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、線性相關與回歸簡單線性相關與回歸簡單(jindn)線性相關與線性相關與回歸多重線性回歸回歸多重線性回歸Spearman等級相關等級相關第一頁,共62頁。第1頁/共62頁第二頁,共62頁。內容:多重線性回歸分析簡單線性相關與回歸Spearman等級相關特例第2頁/共62頁第三頁,共62頁。(一)直線(zhxin)回歸(linear regression)1.定義:用直線方程表達X(自變量(binling),independent variable;解釋變量(binling),explanatory variable;預測變量(binling),predictor variable )和Y (因變
2、量(binling),dependent variable;響應變量(binling),response variable;結局變量(binling),outcome variable )之間的數量關系。一、簡單(jindn)線性相關與回歸第3頁/共62頁第四頁,共62頁。第4頁/共62頁第五頁,共62頁。YabXY:是Y(實測值)的預測值(predicted value),是直線上點的縱坐標。對于每一個X值,根據直線回歸方程都可以計算出相應的Y預測值。(具體計算過程參見(cnjin)衛生統計學第4版)。第5頁/共62頁第六頁,共62頁。2.b和a的意義(yy)a:是回歸直線在Y軸上的截距,即
3、X0時Y的預測值。b:是回歸直線的斜率,又稱為回歸系數。 表示(biosh)當X改變一個單位時,Y的預測值平均改變|b|個單位。3.b和a的估計(gj)最小二乘方法(the method of least squares):各實測點到直線的縱向距離的平方和最小。第6頁/共62頁第七頁,共62頁。4.b的假設檢驗: b為樣本(yngbn)回歸系數,由于抽樣誤差,實際工作中b一般都不為0。要判斷直線回歸方程是否成立,需要檢驗總體回歸系數是否為0。只有(zhyu)當0時,才能認為直線回歸方程成立(具有統計學意義)。H0:=0 H1:0bbtS方法一:t檢驗方法二:F檢驗MSFMS回歸剩余兩種方法等價
4、,Ft第7頁/共62頁第八頁,共62頁。5.直線(zhxin)回歸方程的置信區間估計(1)總體(zngt)回歸系數的95置信區間估計0.05/2,2nbbts(2) Y的均數的95置信區間估計(gj)當XX0時,以95的概率估計(gj)Y的均數的置信區間為0.05/2,2nYYts(3)個體Y值的95容許區間估計當XX0時,以95的概率估計個體Y值的波動范圍為0.05/2,2nY YYts第8頁/共62頁第九頁,共62頁。1.定義描述具有直線關系的兩個變量(binling)之間的相互關系。 (二)直線(zhxin)相關(linear correlation)r:相關系數,correlation
5、 coefficient用來衡量有直線(zhxin)關系的兩個變量之間相關的密切程度和方向。-1r1r0,正相關;r=1為完全正相關r 0,負相關;r=-1為完全負相關|r|越大,兩變量相關越密切(前提:r有統計學意義)第9頁/共62頁第十頁,共62頁。2.相關(xinggun)類型正相關(xinggun):0r1負相關-1r0第10頁/共62頁第十一頁,共62頁。零相關(xinggun) r =02.相關(xinggun)類型曲線相關第11頁/共62頁第十二頁,共62頁。r為樣本相關系數,由于抽樣誤差,實際工作中r一般都不為0。要判斷兩變量之間是否存在相關性,需要檢驗(jinyn)總體相關系
6、數是否為0。212rrrtsrn只有(zhyu)當0時,才能根據|r|的大小判斷相關的密切程度。3.r的假設檢驗H0:=0 H1: 0第12頁/共62頁第十三頁,共62頁。4.相關與回歸(hugu)的區別和聯系(1)相關與回歸的意義不同(b tn) 相關表達兩個變量之間相互關系的密切程度和方向。回歸表達兩個變量之間的數量關系,已知X值可以預測Y值。從散點圖上,散點圍繞回歸直線的分布越密集,則兩變量相關系數越大;回歸直線的斜率越大,則回歸系數越大。(2)r與b的符號一致 同正同負。(3)r與b的假設檢驗等價(dngji)第13頁/共62頁第十四頁,共62頁。(4) 可以用回歸解釋(jish)相關
7、2SSrSS回歸總r2稱為決定系數(coefficient of determination), 其越接近于1,回歸直線(zhxin)擬和的效果越好。4.相關(xinggun)與回歸的區別和聯系第14頁/共62頁第十五頁,共62頁。例1 為研究中年女性體重指數和收縮壓的關系,隨機(su j)測量了16名40歲以上的女性的體重指數和收縮壓(見數據文件p237.sav)。變量說明:X:體重指數;Y:收縮壓(mmHg)。1.繪制(huzh)散點圖散點圖顯示:收縮壓與體重(tzhng)指數之間有線性相關趨勢,因此可以進一步做直線回歸與相關第15頁/共62頁第十六頁,共62頁。2.直線回歸與相關分析Re
8、gression, 回歸 Linear, 線性第16頁/共62頁第十七頁,共62頁。2.直線回歸與相關分析因變量自變量第17頁/共62頁第十八頁,共62頁。P值相關系數r決定系數r2調整r2截距a回歸系數bsb標準化回歸系數t值P值F值第18頁/共62頁第十九頁,共62頁。3.直線回歸的預測及置信區間估計給定XX0,預測Y第19頁/共62頁第二十頁,共62頁。3.直線回歸的預測及置信區間估計因變量自變量統計保存(產生新變量,保存在當前數據庫)第20頁/共62頁第二十一頁,共62頁。3.直線回歸的預測及置信區間估計總體回歸系數的置信區間估計第21頁/共62頁第二十二頁,共62頁。3.直線回歸的預
9、測及置信區間估計預測值非標準化預測區間Y的均數個體Y值第22頁/共62頁第二十三頁,共62頁。總體回歸系數的95置信區間預測值殘差3.直線回歸的預測及置信區間估計第23頁/共62頁第二十四頁,共62頁。3.直線回歸的預測及置信區間估計X0Y的預測值Y的均數的置信區間的下限及上限個體Y值的容許區間的下限及上限第24頁/共62頁第二十五頁,共62頁。例2:由于改革開放政策,深圳特區中外來人口大幅度增加,為了考察特區中外來人口對本地經濟發展的貢獻,深圳特區統計局收集了所屬的寶安縣在1987年末18個鎮的人口與工農業總產值數據(shj)(見數據(shj)文件reg.sav)。此處把工農業總產值當作因變
10、量(W),而把外地及本地人口數當作兩個自變量(Z1,Z2)。二、多重線性回歸(hugu)分析(有關統計方法的原理(yunl)及計算參見孫尚拱,醫學多變量統計與統計軟件,北京醫科大學出版社,2000)第25頁/共62頁第二十六頁,共62頁。數據文件reg.sav第26頁/共62頁第二十七頁,共62頁。1.如何估計自變量與因變量之間的相互關系?(估計回歸方程)2.哪些自變量對因變量有影響?(影響因素分析)3.哪一個自變量對因變量的影響更重要?(自變量的相對(xingdu)重要性分析)4.如何用自變量預測因變量?(預測分析)(一)多重回歸(hugu)分析的任務第27頁/共62頁第二十八頁,共62頁。
11、(二)多重回歸分析(fnx)的適用條件1.自變量與因變量之間存在線性關系2.殘差的正態性3.殘差的等方差(fn ch)性4.剔除強影響點(突出點,outliers)5.自變量之間不應存在共線性6.獨立性第28頁/共62頁第二十九頁,共62頁。關于獨立性:所有的觀測值是相互獨立的。如果受試對象僅被隨機觀測一次,那么一般都會滿足獨立性的假定。但是出現下列三種情況時,觀測值不是相互獨立的:時間序列、重復測量(cling)等情況。SPSS軟件在“Linear Regression:Statistics”對話框中,提供了Durbin-Watson統計量d,以檢驗自相關系數是否為0。當d值接近于2,則殘差
12、之間是不相關的。第29頁/共62頁第三十頁,共62頁。1.如何估計自變量與因變量之間的相互(xingh)關系?(估計回歸方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中y為實測值, 為預測值(predicted value) y估計模型(mxng)中系數的方法:最小二乘方法(Least Square,LS),即殘差平方和最小。b1, b2. bm稱為偏回歸系數(partial regression coefficient) :當固定其他(qt)變量時,xm每增加一個單位,y的增加值都是bm。 (一)多重回歸分析的任務第30頁/共62頁第三十一頁,共62
13、頁。模型(mxng)擬和的優良性指標R:復相關系數,反映了Y與M個自變量的總體相關系數;R2:決定系數(R Square)R2c:調整(tiozhng)決定系數(Adjusted R square ),是對決定系數的修正,是更客觀的指標。 這些指標越接近于1,說明回歸模型擬合越好。 除了(ch le)上述指標,還有殘差標準誤s,殘差標準差越小,說明回歸模型擬合越好。 第31頁/共62頁第三十二頁,共62頁。2.哪些自變量對因變量有影響?(影響因素(yn s)分析)對回歸(hugu)模型的統計檢驗1regSSnmFmSSE當P0.05,則認為此回歸(hugu)模型有顯著性。對自變量的統計檢驗/(
14、 )iitbse b當P0.05,則認為此自變量對因變量有影響。第32頁/共62頁第三十三頁,共62頁。自變量的篩選(shixun)實際應用中,通常從專業知識出發,建立一個簡約(parsimonious)的回歸模型,即用盡可能少的自變量擬合模型。 常用(chn yn)方法:1.前進法(Forward):逐步增加變量到模型中(由少到多),對已經進入的變量不再剔除;SPSS中默認的選入自變量的檢驗水準為0.05。2.后退法(Backward):從模型中逐步剔除變量(由多到少),對已經剔除的變量不再進入;SPSS中默認的剔除自變量的檢驗水準為0.10。 3.逐步法(Stepwise):結合了前進法和
15、后退法,變量邊進入邊剔除。第33頁/共62頁第三十四頁,共62頁。3.哪一個自變量對因變量的影響更重要?(自變量的相對(xingdu)重要性分析)當自變量的量綱相同時,衡量自變量相對重要性的指標: 偏回歸系數;若偏回歸系數的絕對值越大,則相應(xingyng)自變量對因變量的影響就越大。第34頁/共62頁第三十五頁,共62頁。當自變量的量綱不同時,衡量自變量相對重要性的指標:標準化偏回歸系數(Standardized regression coefficient)、偏相關系數(Partial Correlation)和部分相關系數(Part Correlation)。上述(shngsh)指標的
16、絕對值越大,則相應自變量對因變量的影響就越大。 第35頁/共62頁第三十六頁,共62頁。標準化偏回歸系數:對自變量、因變量作標準化處理(chl)后計算的回歸系數。偏相關系數:因變量與自變量均扣除其他自變量影響之后,二者之間的相關系數。與簡單相關系數(Pearson相關系數)不同;例如:考察因變量Y與自變量X1 、X2的多元回歸分析,Y與X1的偏相關系數為扣除X2影響后的Y與X1的相關性。 Y與X1的簡單相關系數為忽略X2影響后的Y與X1的相關性。部分相關系數:自變量扣除其他自變量影響之后,因變量與自變量之間的相關系數。與偏相關系數不同,部分相關系數中因變量未扣除其他自變量的影響。 第36頁/共
17、62頁第三十七頁,共62頁。4.如何用自變量預測(yc)因變量?(預測(yc)分析)000001 122.mmybb xb xb x當自變量取某個(mu )數值時,y的預測值為Y的均數的95置信區間個體Y值的95容許區間預測分析時,(x10,x20 xm0)應該(ynggi)在樣本的自變量取值范圍內。 第37頁/共62頁第三十八頁,共62頁。1.自變量與因變量之間存在(cnzi)線性關系通過繪制y與每個自變量的偏相關散點圖,可以判斷y與自變量之間是否(sh fu)存在線性關系。 2.殘差的正態性通過繪制(huzh)標準化殘差的直方圖以及正態概率圖(P-P圖),可以判斷y是否服從正態分布。此條件
18、可以放寬,只要不是嚴重偏離正態即可。3.殘差的等方差性通過繪制標準化殘差與預測值的散點圖,若標準化殘差在零水平線上下波動,無明顯的規律性,則可以判斷y滿足等方差的假定。 (二)多重回歸分析的適用條件第38頁/共62頁第三十九頁,共62頁。通過標準化殘差(Standardized Residuals)、學生(xu sheng)氏殘差(Studentlized Residuals)來判斷強影響點 。當指標的絕對值大于3時,可以認為樣本存在強影響點。刪除強影響點應該慎重,需要結合專業知識。以下兩種情況可以考慮刪除強影響點:1.強影響點是由于數據記錄錯誤造成的;2.強影響點來自不同的總體。4.剔除(t
19、ch)強影響點(Influential cases;或稱為突出點,outliers)第39頁/共62頁第四十頁,共62頁。5.自變量之間不應存在(cnzi)共線性(Collinear) 當一個(或幾個)自變量可以由其他(qt)自變量線性表示時,稱該自變量與其他(qt)自變量間存在共線性關系。常見于:1.一個變量是由其他(qt)變量派生出來的,如:BMI由身高和體重計算得出 ;2.一個變量與其他(qt)變量存在很強的相關性。當自變量之間存在共線性時,會使回歸系數的估計不確定、預測值的精度降低以及對y有影響的重要自變量不能選入模型 。第40頁/共62頁第四十一頁,共62頁。共線性診斷方法:1.TO
20、L(容許度,Tolerance)法:TOL越接近零,共線性越大。2.VIF(方差膨脹因子,Variance Inflation Factor,VIF )法:VIF越大,共線性越大。3.特征根(Eigenvalue)法:如果自變量相關矩陣的特征根近似于零,則自變量之間存在共線性。4.CI(條件指數,Condition Index)法:CI越大,共線性越大。當自變量之間存在共線性時,可以剔除某個自變量或者采用嶺回歸(hugu)分析(Ridge Regression Analysis)。第41頁/共62頁第四十二頁,共62頁。1. 數據(shj)預處理:根據經濟學專業知識,需要先對Z1、Z2、W作對
21、數變換,分別記為X1、X2、Y。(三)多重線性回歸:實例(shl)分析變換后的數據第42頁/共62頁第四十三頁,共62頁。回歸線性2.多重回歸(hugu)分析第43頁/共62頁第四十四頁,共62頁。因變量自變量第44頁/共62頁第四十五頁,共62頁。Statistics對話框回歸系數的估計模型擬和共線性診斷部分相關與偏相關系數統計描述第45頁/共62頁第四十六頁,共62頁。Plots對話框標準化殘差圖直方圖正態概率圖,P-P圖繪制所有的偏相關圖 第46頁/共62頁第四十七頁,共62頁。Save對話框第47頁/共62頁第四十八頁,共62頁。分別給出Y、X1、X2的均數與標準差相關系數陣簡單相關系
22、數(Pearson相關)P值從簡單相關系數可見:Y與X1、X2存在(cnzi)較強相關性,X1、X2存在(cnzi)中等相關性。3.輸出(shch)結果解釋第48頁/共62頁第四十九頁,共62頁。復相關系數 決定系數 調整決定系數F值P值此模型的復相關系數為0.857,調整決定系數為0.699,反映(fnyng)此模型擬和較好;模型經統計學檢驗,F=20.738,P0.05,說明此多元回歸模型有顯著性。第49頁/共62頁第五十頁,共62頁。非標準化系數 標準化系數 t值 P值簡單相關 偏相關 部分相關TolVIF6.8890.695 1 0.8382yXX 經統計學檢驗,X1與X2均有顯著性,
23、因此回歸模型為 ;根據偏回歸系數的大小,可以認為(rnwi)X2對Y的影響比X1大。第50頁/共62頁第五十一頁,共62頁。特征根條件指數, CI方差比例共線性診斷共線性診斷:兩個(lin )自變量之間不存在共線性。第51頁/共62頁第五十二頁,共62頁。因為標準化殘差、學生(xu sheng)化殘差的絕對值小于3,所以從統計學上認為樣本不存在強影響點。殘差統計量學生化殘差標準化殘差第52頁/共62頁第五十三頁,共62頁。直方圖及P-P圖從殘差直方圖及P-P圖可見:殘差正態性不太好,可能(knng)與樣本量太小有關。第53頁/共62頁第五十四頁,共62頁。通過繪制y與X1的偏相關散點圖,可以(ky)判斷y與X1之間存在線性關系。 第54頁/共62頁第五
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 關于黃岡的七下數學試卷
- 貨品分析培訓課件圖片
- 肥城中考數學試卷
- 肛腸五項技術課件
- 燈塔市期末考試數學試卷
- 浮山中學數學試卷
- 高級中學期末數學試卷
- 2025年06月浙江溫州市蒼南縣衛生健康系統面向社會招聘120編外輔助人員2人筆試歷年專業考點(難、易錯點)附帶答案詳解
- 2025年01月2025安徽池州市人民醫院勞務派遣辦公室文員招聘1人筆試歷年專業考點(難、易錯點)附帶答案詳解
- 銷售技能培訓課件分類
- 2023年本科招生考試
- 碳捕集、利用與封存技術課件
- 碳達峰和“碳中和”環境知識科普宣傳PPT教學課件
- 中文版b4a新手指南-第14-15章語言畫圖
- 新入職護士培訓考試試題及答案
- 《消防安全技術實務》課本完整版
- 公路工程標準施工監理招標文件(2018年版)
- 北師大版七年級數學下冊 與信息技術相融合的數學教學案例 教案
- 鈍針穿刺法臨床應用護理
- 精品中文版b4a新手指南第4章開發環境
- 光纜線路的故障分析及障礙搶修
評論
0/150
提交評論