線性相關與回歸(簡單線性相關與回歸、多重線性回歸、Spearman等級相關)_第1頁
線性相關與回歸(簡單線性相關與回歸、多重線性回歸、Spearman等級相關)_第2頁
線性相關與回歸(簡單線性相關與回歸、多重線性回歸、Spearman等級相關)_第3頁
線性相關與回歸(簡單線性相關與回歸、多重線性回歸、Spearman等級相關)_第4頁
線性相關與回歸(簡單線性相關與回歸、多重線性回歸、Spearman等級相關)_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、SPSS軟件在醫學科研中的應用軟件在醫學科研中的應用何平平何平平北大醫學部流行病與衛生統計學系北大醫學部流行病與衛生統計學系Tel:82801619線性相關與回歸線性相關與回歸內容:內容:多重線性回歸分析多重線性回歸分析簡單線性相關與回歸簡單線性相關與回歸Spearman等級相關等級相關特例特例(一)(一)直線回歸(直線回歸(linear regression)1.1.定義:用直線方程表達定義:用直線方程表達X(自變量,(自變量,independent variable;解釋變量,;解釋變量,explanatory variable;預測變量,;預測變量,predictor variable

2、)和和Y (因變量,(因變量,dependent variable;響應變量,;響應變量,response variable;結局變量,;結局變量,outcome variable )之間的數量關系。之間的數量關系。一、一、簡單線性相關與回歸簡單線性相關與回歸YabXY:是:是Y(實測值)的(實測值)的預測值(預測值(predicted value),是直線上點的縱坐標。對于每一個是直線上點的縱坐標。對于每一個X值,根據直線值,根據直線回歸方程都可以計算出相應的回歸方程都可以計算出相應的Y預測值。預測值。(具體計算過程參見(具體計算過程參見衛生統計學衛生統計學第第4版)。版)。2.2.b和和a

3、的意義的意義a:是回歸直線在:是回歸直線在Y軸上的截距,即軸上的截距,即X0時時Y的預測值。的預測值。b:是回歸直線的斜率,又稱為回歸系數。:是回歸直線的斜率,又稱為回歸系數。 表示當表示當X改變一個單位時,改變一個單位時,Y的預測值平均改變的預測值平均改變| |b| |個單位。個單位。3.3.b和和a的估計的估計最小二乘方法(最小二乘方法(the method of least squares): :各實測點到直線的縱向距離的平方和最小。各實測點到直線的縱向距離的平方和最小。4.4.b的假設檢驗的假設檢驗: b為樣本回歸系數,由于抽樣誤差,為樣本回歸系數,由于抽樣誤差,實際工作中實際工作中b

4、一般都不為一般都不為0。要判斷直線回歸方程是否成。要判斷直線回歸方程是否成立,需要檢驗總體回歸系數立,需要檢驗總體回歸系數 是否為是否為0。只有當只有當 0 0時,才能認為直線回歸方程成立(具有統計時,才能認為直線回歸方程成立(具有統計學意義)。學意義)。H0: =0 H1: 0bbtS方法一:方法一:t檢驗檢驗方法二:方法二:F檢驗檢驗MSFMS回歸剩余兩種方法等價,兩種方法等價,Ft5.5.直線回歸方程的置信區間估計直線回歸方程的置信區間估計(1)總體回歸系數總體回歸系數 的的95置信區間估計置信區間估計0.05/2,2nbbts(2) Y的均數的均數的的95置信區間估計置信區間估計當當X

5、X0時,以時,以95的概率估計的概率估計Y的均數的均數的置信區間為的置信區間為0.05/2,2nYYts(3)個體個體Y值的值的95容許區間估計容許區間估計當當XX0時,以時,以95的概率估計的概率估計個體個體Y值值的波動范圍為的波動范圍為0.05/2,2nY YYts1.1.定義定義描述具有直線關系的兩個變量之間的相互關系。描述具有直線關系的兩個變量之間的相互關系。 (二)直線相關(二)直線相關(linear correlation)r:相關系數,相關系數,correlation coefficient用來衡量有直線關系的兩個變量之間相關的密切程度和用來衡量有直線關系的兩個變量之間相關的密切

6、程度和方向。方向。-1-1 r 1 1r00,正相關;,正相關;r=1為完全正相關為完全正相關r 00,負相關,負相關;r=-1為完全負相關為完全負相關| |r| |越大,兩變量相關越密切越大,兩變量相關越密切(前提:(前提:r有統計學意義)有統計學意義)2.2.相關類型相關類型正相關:正相關:0r 1負相關負相關-1 r0零相關零相關 r =02.2.相關類型相關類型曲線相關曲線相關r為樣本相關系數,由于抽樣誤差,實際工作中為樣本相關系數,由于抽樣誤差,實際工作中r一般都一般都不為不為0 0。要判斷兩變量之間是否存在相關性,需要檢驗。要判斷兩變量之間是否存在相關性,需要檢驗總體相關系數總體相

7、關系數 是否為是否為0 0。212rrrtsrn只有當只有當 0 0時,才能根據時,才能根據| |r| |的大小判斷相關的大小判斷相關的密切程度。的密切程度。3.3.r的假設檢驗的假設檢驗H0:=0 H1: 04.相關與回歸的區別和聯系相關與回歸的區別和聯系(1)相關與回歸的意義不同相關與回歸的意義不同 相關表達兩個變量相關表達兩個變量之間相互關系的密切程度和方向。回歸表達兩個變之間相互關系的密切程度和方向。回歸表達兩個變量之間的數量關系,已知量之間的數量關系,已知X值可以預測值可以預測Y值。從散點值。從散點圖上,散點圍繞回歸直線的分布越密集,則兩變量圖上,散點圍繞回歸直線的分布越密集,則兩變

8、量相關系數越大;回歸直線的斜率越大,則回歸系數相關系數越大;回歸直線的斜率越大,則回歸系數越大。越大。(2)r與與b的符號一致的符號一致 同正同負。同正同負。(3)r與與b的假設檢驗等價的假設檢驗等價(4) 可以用回歸解釋相關可以用回歸解釋相關2SSrSS回歸總r2稱為決定系數(稱為決定系數(coefficient of determination), , 其越接近于其越接近于1,回歸直線擬和的效果越好。,回歸直線擬和的效果越好。4.相關與回歸的區別和聯系相關與回歸的區別和聯系例例1 1 為研究中年女性體重指數和收縮壓的關系,隨機測量為研究中年女性體重指數和收縮壓的關系,隨機測量了了1616名

9、名4040歲以上的女性的體重指數和收縮壓(見數據文件歲以上的女性的體重指數和收縮壓(見數據文件p237.savp237.sav)。)。變量說明:變量說明:X: :體重指數;體重指數;Y: :收縮壓(收縮壓(mmHg)。)。1.1.繪制散點圖繪制散點圖散點圖顯示:收散點圖顯示:收縮壓與體重指數縮壓與體重指數之間有線性相關之間有線性相關趨勢,因此可以趨勢,因此可以進一步做直線回進一步做直線回歸與相關歸與相關2.2.直線回歸與相關分析直線回歸與相關分析Regression, 回歸回歸 Linear, 線性線性2.2.直線回歸與相關分析直線回歸與相關分析因變量因變量自變量自變量P值值相關相關系數系數r

10、決定決定系數系數r2調整調整r2截距截距a回歸系數回歸系數bsb標準化回歸系數標準化回歸系數t值值P值值F值值3.3.直線回歸的預測及置信區間估計直線回歸的預測及置信區間估計給定給定XX0,預測預測Y3.3.直線回歸的預測及置信區間估計直線回歸的預測及置信區間估計因變量因變量自變量自變量統計統計保存(產生新變量,保保存(產生新變量,保存在當前數據庫)存在當前數據庫)3.3.直線回歸的預測及置信區間估計直線回歸的預測及置信區間估計總體回歸系總體回歸系數的置信區數的置信區間估計間估計3.3.直線回歸的預測及置信區間估計直線回歸的預測及置信區間估計預測值預測值非標準化非標準化預測區間預測區間Y的均數

11、的均數個體個體Y值值總體回歸系數的總體回歸系數的95置信區間置信區間預測值預測值殘差殘差3.3.直線回歸的預測及置信區間估計直線回歸的預測及置信區間估計3.3.直線回歸的預測及置信區間估計直線回歸的預測及置信區間估計X0Y的預測的預測值值Y的均數的置信區的均數的置信區間的下限及上限間的下限及上限個體個體Y值的容許區值的容許區間的下限及上限間的下限及上限例例2:由于改革開放政策,深圳特區中外來人口大幅度增由于改革開放政策,深圳特區中外來人口大幅度增加,為了考察特區中外來人口對本地經濟發展的貢獻,深加,為了考察特區中外來人口對本地經濟發展的貢獻,深圳特區統計局收集了所屬的寶安縣在圳特區統計局收集了

12、所屬的寶安縣在1987年末年末18個鎮的個鎮的人口與工農業總產值數據(人口與工農業總產值數據(見數據文件見數據文件reg.sav)。此處)。此處把工農業總產值當作因變量(把工農業總產值當作因變量(W),而把外地及本地人口),而把外地及本地人口數當作兩個自變量(數當作兩個自變量(Z1,Z2)。)。二、多重線性回歸分析二、多重線性回歸分析(有關統計方法的原理及計算參見(有關統計方法的原理及計算參見孫尚拱,孫尚拱,醫學多變醫學多變量統計與統計軟件量統計與統計軟件,北京醫科大學出版社,北京醫科大學出版社,2000)數據文件數據文件reg.sav1.如何估計自變量與因變量之間的相互關系?(如何估計自變量

13、與因變量之間的相互關系?(估計回歸估計回歸方程)方程)2.哪些自變量對因變量有影響?(哪些自變量對因變量有影響?(影響因素分析影響因素分析)3.哪一個自變量對因變量的影響更重要?(哪一個自變量對因變量的影響更重要?(自變量的相對自變量的相對重要性分析重要性分析)4.如何用自變量預測因變量?(如何用自變量預測因變量?(預測分析預測分析)(一)多重回歸分析的任務(一)多重回歸分析的任務(二)多重回歸分析的適用條件(二)多重回歸分析的適用條件1.自變量與因變量之間存在線性關系自變量與因變量之間存在線性關系2.殘差的正態性殘差的正態性3.殘差的等方差性殘差的等方差性4.剔除強影響點(突出點,剔除強影響

14、點(突出點,outliers)5.自變量之間不應存在共線性自變量之間不應存在共線性6.獨立性獨立性關于獨立性:關于獨立性:所有的觀測值是相互獨立的。如果受試對象僅被隨機所有的觀測值是相互獨立的。如果受試對象僅被隨機觀測一次,那么一般都會滿足獨立性的假定。但是出觀測一次,那么一般都會滿足獨立性的假定。但是出現下列三種情況時,觀測值不是相互獨立的:時間序現下列三種情況時,觀測值不是相互獨立的:時間序列、重復測量等情況。列、重復測量等情況。SPSS軟件在軟件在“Linear Regression:Statistics”對話對話框中,提供了框中,提供了Durbin-Watson統計量統計量d,以檢驗自

15、相,以檢驗自相關系數是否為關系數是否為0。當。當d值接近于值接近于2,則殘差之間是不相,則殘差之間是不相關的。關的。1.如何估計自變量與因變量之間的相互關系?(如何估計自變量與因變量之間的相互關系?(估計回歸方程估計回歸方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中其中y為實測值,為實測值, 為預測值(為預測值(predicted value) y估計模型中系數的方法:估計模型中系數的方法:最小二乘方法(最小二乘方法(Least Square,LS),即殘差平方和最小。),即殘差平方和最小。b1, b2. bm稱為偏回歸系數(稱為偏回歸系數(part

16、ial regression coefficient) :當固定其他變量時當固定其他變量時,xm每增加一個單位,每增加一個單位,y的增加值都是的增加值都是bm。 (一)多重回歸分析的任務(一)多重回歸分析的任務模型擬和的優良性指標模型擬和的優良性指標R:復相關系數,反映了復相關系數,反映了Y與與M個自變量的總體相關系數;個自變量的總體相關系數;R2:決定系數(決定系數(R Square)R2c:調整決定系數(調整決定系數(Adjusted R square ),是對決定系),是對決定系數的修正,是數的修正,是更客觀更客觀的指標。的指標。 這些指標越接近于這些指標越接近于1,說明回歸模型擬合越好

17、。,說明回歸模型擬合越好。 除了上述指標,還有殘差標準誤除了上述指標,還有殘差標準誤s,殘差標準差越小,說,殘差標準差越小,說明回歸模型擬合越好。明回歸模型擬合越好。 2.哪些自變量對因變量有影響?(哪些自變量對因變量有影響?(影響因素分析影響因素分析)對回歸模型的統計檢驗對回歸模型的統計檢驗1regSSnmFmSSE當當P0.05,則認為此回歸模型有顯著性。則認為此回歸模型有顯著性。對自變量的統計檢驗對自變量的統計檢驗/( )iitbse b當當P0.05,則認為此自變量對因變量有影響。則認為此自變量對因變量有影響。自變量的篩選自變量的篩選實際應用中,通常從專業知識出發,建立一個簡約實際應用

18、中,通常從專業知識出發,建立一個簡約(parsimonious)的回歸模型,即用盡可能少的自變量擬)的回歸模型,即用盡可能少的自變量擬合模型。合模型。 常用方法:常用方法:1.前進法(前進法(Forward):):逐步增加變量到模型中(由少到逐步增加變量到模型中(由少到多),對已經進入的變量不再剔除;多),對已經進入的變量不再剔除;SPSS中默認的選入自中默認的選入自變量的檢驗水準為變量的檢驗水準為0.05。2.后退法(后退法(Backward):):從模型中逐步剔除變量(由多到從模型中逐步剔除變量(由多到少),對已經剔除的變量不再進入;少),對已經剔除的變量不再進入;SPSS中默認的剔除自中

19、默認的剔除自變量的檢驗水準為變量的檢驗水準為0.10。 3.逐步法(逐步法(Stepwise):):結合了前進法和后退法,變量邊進結合了前進法和后退法,變量邊進入邊剔除。入邊剔除。3.哪一個自變量對因變量的影響更重要?(哪一個自變量對因變量的影響更重要?(自變量的相對重要自變量的相對重要性分析性分析)當自變量的量綱相同時,衡量自變量相對重要性的指標:當自變量的量綱相同時,衡量自變量相對重要性的指標: 偏回歸系數;若偏回歸系數的絕對值越大,則相應自變量偏回歸系數;若偏回歸系數的絕對值越大,則相應自變量對因變量的影響就越大。對因變量的影響就越大。當自變量的量綱不同時,衡量自變量相對重要性的指標:當

20、自變量的量綱不同時,衡量自變量相對重要性的指標:標準化偏回歸系數(標準化偏回歸系數(Standardized regression coefficient)、)、偏相關系數(偏相關系數(Partial Correlation)和部分相關系數()和部分相關系數(Part Correlation)。)。上述指標的絕對值越大,則相應自變量對因變上述指標的絕對值越大,則相應自變量對因變量的影響就越大。量的影響就越大。 標準化偏回歸系數標準化偏回歸系數:對自變量、因變量作標準化處理后計算的:對自變量、因變量作標準化處理后計算的回歸系數。回歸系數。偏相關系數偏相關系數:因變量與自變量均扣除其他自變量影響之

21、后,二:因變量與自變量均扣除其他自變量影響之后,二者之間的相關系數。與簡單相關系數(者之間的相關系數。與簡單相關系數(Pearson相關系數)不同;相關系數)不同;例如:考察因變量例如:考察因變量Y與自變量與自變量X1 、X2的多元回歸分析,的多元回歸分析,Y與與X1的的偏相關系數為偏相關系數為扣除扣除X2影響后的影響后的Y與與X1的相關性。的相關性。 Y與與X1的簡單相的簡單相關系數為關系數為忽略忽略X2影響后的影響后的Y與與X1的相關性。的相關性。部分相關系數:部分相關系數:自變量扣除其他自變量影響之后,因變量與自自變量扣除其他自變量影響之后,因變量與自變量之間的相關系數。與偏相關系數不同

22、,部分相關系數中因變量之間的相關系數。與偏相關系數不同,部分相關系數中因變量未扣除其他自變量的影響。變量未扣除其他自變量的影響。 4.如何用自變量預測因變量?(如何用自變量預測因變量?(預測分析預測分析)000001 122.mmybb xb xb x當自變量取某個數值時,當自變量取某個數值時,y的預測值為的預測值為Y的均數的的均數的9595置信區間置信區間個體個體Y值的值的95容許區間容許區間預測分析時,(預測分析時,(x10,x20 xm0)應該在樣本的自變)應該在樣本的自變量取值范圍內。量取值范圍內。 1.自變量與因變量之間存在線性關系自變量與因變量之間存在線性關系通過繪制通過繪制y與每

23、個自變量的偏相關散點圖,可以判斷與每個自變量的偏相關散點圖,可以判斷y與與自變量之間是否存在線性關系。自變量之間是否存在線性關系。 2.殘差的正態性殘差的正態性通過繪制標準化殘差的直方圖以及正態概率圖(通過繪制標準化殘差的直方圖以及正態概率圖(P-P圖),可以圖),可以判斷判斷y是否服從正態分布。此條件可以放寬,只要不是嚴重偏離是否服從正態分布。此條件可以放寬,只要不是嚴重偏離正態即可。正態即可。3.殘差的等方差性殘差的等方差性通過繪制標準化殘差與預測值的散點圖,若標準化殘差在零通過繪制標準化殘差與預測值的散點圖,若標準化殘差在零水平線上下波動,無明顯的規律性,則可以判斷水平線上下波動,無明顯

24、的規律性,則可以判斷y滿足等方差滿足等方差的假定。的假定。 (二)多重回歸分析的適用條件(二)多重回歸分析的適用條件通過標準化殘差(通過標準化殘差(Standardized Residuals)、學生氏殘)、學生氏殘差(差(Studentlized Residuals)來判斷強影響點)來判斷強影響點 。當指標。當指標的絕對值大于的絕對值大于3時,可以認為樣本存在強影響點。時,可以認為樣本存在強影響點。刪除強影響點應該慎重,需要結合專業知識。以下兩種情刪除強影響點應該慎重,需要結合專業知識。以下兩種情況可以考慮刪除強影響點:況可以考慮刪除強影響點:1.強影響點是由于數據記錄錯強影響點是由于數據記

25、錄錯誤造成的;誤造成的;2.強影響點來自不同的總體。強影響點來自不同的總體。4.剔除強影響點(剔除強影響點(Influential cases;或稱為突出點,;或稱為突出點,outliers)5.自變量之間不應存在共線性(自變量之間不應存在共線性(Collinear) 當一個(或幾個)自變量可以由其他自變量線性表示時,稱當一個(或幾個)自變量可以由其他自變量線性表示時,稱該自變量與其他自變量間存在共線性關系。常見于:該自變量與其他自變量間存在共線性關系。常見于:1.一個一個變量是由其他變量派生出來的,如:變量是由其他變量派生出來的,如:BMI由身高和體重計算由身高和體重計算得出得出 ;2.一個

26、變量與其他變量存在很強的相關性。一個變量與其他變量存在很強的相關性。當自變量之間存在共線性時,會使回歸系數的估計不確定、當自變量之間存在共線性時,會使回歸系數的估計不確定、預測值的精度降低以及對預測值的精度降低以及對y有影響的重要自變量不能選入模有影響的重要自變量不能選入模型型 。共線性診斷方法:共線性診斷方法:1.TOL(容許度,(容許度,Tolerance)法:)法:TOL越接近零,共線性越大。越接近零,共線性越大。2.VIF(方差膨脹因子,(方差膨脹因子,Variance Inflation Factor,VIF )法:)法:VIF越大,共線性越大。越大,共線性越大。3.特征根(特征根(

27、Eigenvalue)法:)法:如果自變量相關矩陣的特征根近似如果自變量相關矩陣的特征根近似于零,則自變量之間存在共線性。于零,則自變量之間存在共線性。4.CI(條件指數,(條件指數,Condition Index)法:)法:CI越大,共線性越大。越大,共線性越大。當自變量之間存在共線性時,可以剔除某個自變量或者采用嶺回當自變量之間存在共線性時,可以剔除某個自變量或者采用嶺回歸分析(歸分析(Ridge Regression Analysis)。)。1. 數據預處理:根據經濟學專業知識,需要先對數據預處理:根據經濟學專業知識,需要先對Z1、Z2、W作對數變換,分別記為作對數變換,分別記為X1、X

28、2、Y。(三)多重線性回歸:實例分析(三)多重線性回歸:實例分析變換后的數據變換后的數據回歸回歸線性線性2.多重回歸分析多重回歸分析因變量因變量自變量自變量Statistics對話框對話框回歸系數回歸系數的估計的估計模型擬和模型擬和共線性診斷共線性診斷部分相關與偏相關系數部分相關與偏相關系數統計描述統計描述Plots對話框對話框標準化標準化殘差圖殘差圖直方圖直方圖正態概率圖,正態概率圖,P-P圖圖繪制所有的繪制所有的偏相關圖偏相關圖 Save對話框對話框分別給出分別給出Y、X1、X2的均數與標的均數與標準差準差相關系數陣相關系數陣簡單相關系數簡單相關系數(Pearson相關相關)P值值從簡單相

29、關系數可見:從簡單相關系數可見:Y與與X1、X2存在較強相關性,存在較強相關性,X1、X2存在中等相關性。存在中等相關性。3.輸出結果解釋輸出結果解釋復相關系數復相關系數 決定系數決定系數 調整決定系數調整決定系數F值值P值值此模型的復相關系數為此模型的復相關系數為0.857,調整決定系數為,調整決定系數為0.699,反映此模型擬反映此模型擬和較好和較好;模型經統計學檢驗,;模型經統計學檢驗,F=20.738,P0.05,說明此多元回歸,說明此多元回歸模型有顯著性。模型有顯著性。非標準化系數非標準化系數 標準化系數標準化系數 t值值 P值值簡單相關簡單相關 偏相關偏相關 部分相關部分相關Tol

30、VIF6.8890.695 10.8382yXX 經統計學檢驗,經統計學檢驗,X1與與X2均有顯著性,因此回歸模型為均有顯著性,因此回歸模型為 ;根據偏回歸系數的大小,根據偏回歸系數的大小,可以認為可以認為X2對對Y的影響比的影響比X1大。大。特征根特征根條件指數條件指數, CI方差比例方差比例共線性診斷共線性診斷共線性診斷:共線性診斷:兩個自變量之間不存在共線性。兩個自變量之間不存在共線性。因為標準化殘差、學生化殘差的絕對值小于因為標準化殘差、學生化殘差的絕對值小于3,所以,所以從統計學上從統計學上認為樣本不存在強影響點。認為樣本不存在強影響點。殘差統計量殘差統計量學生化殘差學生化殘差標準化殘差標準化殘差直方圖及直方圖及P-P圖圖從殘差直方圖及從殘差直方圖及P-P圖可見:殘差正態性不太好,圖可見:殘差正態性不太好,可能與樣本量太小有關。可能與樣本量太小有關。通過繪制通過繪制y與與X1的偏相關散點圖,可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論