統計分析與SAS軟件第五章線性回歸分析_第1頁
統計分析與SAS軟件第五章線性回歸分析_第2頁
統計分析與SAS軟件第五章線性回歸分析_第3頁
統計分析與SAS軟件第五章線性回歸分析_第4頁
統計分析與SAS軟件第五章線性回歸分析_第5頁
已閱讀5頁,還剩39頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、一元線性回歸一、一元線性回歸二、一元線性回歸方程二、一元線性回歸方程三、回歸關系的顯著性檢驗三、回歸關系的顯著性檢驗四、置信區間四、置信區間五、多元線性回歸五、多元線性回歸六、回歸診斷六、回歸診斷第五章 線性回歸分析 l 生產實踐中,常常能找到一個變量與另外一生產實踐中,常常能找到一個變量與另外一個變量之間的關系:小麥的施肥量與產量、個變量之間的關系:小麥的施肥量與產量、水稻的株高和穗長、冬天的溫度與來年病蟲水稻的株高和穗長、冬天的溫度與來年病蟲害的發生程度等等。害的發生程度等等。l 回歸分析就是找出合適的回歸方程,從而用回歸分析就是找出合適的回歸方程,從而用一個變量來預測另一個變量。一個

2、變量來預測另一個變量。l 一元線性回歸:最簡單的回歸關系,即一個一元線性回歸:最簡單的回歸關系,即一個變量變量y在一個變量在一個變量x上的回歸關系,稱上的回歸關系,稱x為自變為自變量,量,y為因變量(或稱響應變量、依賴變量)為因變量(或稱響應變量、依賴變量)第一節 一元線性回歸l 如果兩個變量如果兩個變量x,y之間存在線性回歸關系,之間存在線性回歸關系,則有回歸模型:則有回歸模型:總體:總體:yi + xi + i a 稱為回歸截距稱為回歸截距 b 稱為回歸系數稱為回歸系數i 稱為隨機誤差稱為隨機誤差樣本:樣本:yi a + b xi + i回歸方程:回歸方程: a + b xy 第一節 一元

3、線性回歸 l 回歸參數的計算回歸參數的計算最小二乘法最小二乘法 期望擬合的線性回歸方程與試驗資料的誤差期望擬合的線性回歸方程與試驗資料的誤差最小,擬合的誤差也稱作離回歸平方和或殘最小,擬合的誤差也稱作離回歸平方和或殘差差 ,可以利用數學中求極值的方法解出,可以利用數學中求極值的方法解出 a 和和 b 而使得誤差平方和為最小。而使得誤差平方和為最小。2112)(iininiiibxayyyQ 誤差平方和:誤差平方和:第二節第二節 線性回歸方程線性回歸方程l分別求Q 對a 和b 的偏導數,令其等于 0:0)(2)(2xbnaybxayaQ0)(2)(22xbxaxyxbxaybQl 整理得正規方程

4、組:yxbnaxyxbxa22112)(iininiiibxayyyQ第二節第二節 線性回歸方程線性回歸方程l 解正規方程組:) 1 (yxbna)2(2xyxbxal(3)式各項乘 :x) 5 (/)(2nyxnxbxal(1)式除以 n 得:(/ )/(3)abx ny n (2)-(5)式得: nyxxynxxb/)(22即:)()(2yyxxxxb)4()/(/xbynxbnya 于是: 于是:xxySSSPxxyyxxb/)(/ )(2 線性回歸方程便已求出為:bxay第二節第二節 線性回歸方程線性回歸方程l 對此統計假設有兩種檢驗方法:l 檢驗線性回歸關系是否存在,就是檢驗建立回歸

5、模型的樣本是否來自存在回歸關系的總體,即 H0 : 0 vs HA: 0 l 只有在此檢驗結果為顯著時,用 a 估計 ,用 b 估計 ,用 估計 y 才是有意義的。y F F 檢驗法檢驗法 和 t 檢驗法檢驗法注:df1=1,df2=n-2的一尾F值等于df=n-2的兩尾t值的平方第三節 回歸關系的顯著性檢驗l 如果在模型 yi + xi +i 中, 0,這就意味著不管 xi為什么值, yi 都不發生實質性變化;換言之,x和 y 之間沒有顯著的回歸關系。1.F1.F檢驗法檢驗法l 利用下圖說明F檢驗法的基本原理。 y 當自變量為 ,對應的 因變量的實測值為 , 因變量的預測值為 。 于是 的離

6、均差 可分解為兩個部分:xyy yy l 離均差 l 隨機誤差l 回歸引起的偏差yy yyyy) (yy yy )(yyxyyxy 第三節 回歸關系的顯著性檢驗l 對數據資料所有點的求和得: l 對于任一個點有: )() ()(yyyyyyl 兩邊平方得: 222)()( 2) ()(yyyyyyyyyy222) ()(2) ()(yyyyyyyyyy)()(xxbybxxbybxay證明:證明:上式右邊的中間項為0:)(bxxbyyyy)()()(xxbyyxxbyyyy)()(2xxbyyxxb)() (xxbyy即 )()() (xxbyyyy即第三節 回歸關系的顯著性檢驗222) ()

7、 ()(yyyyyy 誤差平方和eQSS 回歸平方和rUSS 的總平方和yTSSy于是: 的總平方和便分解為兩個部分:y第三節 回歸關系的顯著性檢驗0)(xxxyxySSSSSPSPbyyyy對所有點求和得: 變異來源變異來源 自由度自由度 平方和平方和均方均方值值回歸回歸誤差誤差n-2UQ 總變異總變異n-1T05. 0F01. 0F2Us2es2Us2es檢驗結論:若檢驗結論:若F F0.05,則存在顯著的線性回歸關系。,則存在顯著的線性回歸關系。利用方差分析表利用方差分析表第三節 回歸關系的顯著性檢驗2 2. .t t 檢驗法檢驗法其中回歸系數其中回歸系數其標準誤其標準誤: : bsbt

8、 2222ebxxyyQsnnsSSSSxx第三節 回歸關系的顯著性檢驗H0: 0 vs HA:0選擇選擇 t t 統計量統計量: : b研究光照強度與凈光合強度的關系研究光照強度與凈光合強度的關系光照光照強度強度X X凈光合凈光合強度強度Y Y 一級計算:一級計算:300700100015002200300040005000600070001402603003804104925806907408302230700482214367000027807641949200010 xyxyxyn實例:實例:回歸系數回歸系數 b : :094868.049431004688460 xxySSSPb回歸

9、截距回歸截距 a: : 955.1903070094868. 02 .482xbya實例:實例:變異來源變異來源自由度自由度 平方和平方和均方均方值值回歸回歸誤差誤差84447841081044478413513295.3211.26總變異總變異945559505. 0F01. 0FF檢驗結論:回歸關系達極顯著,可得線性回歸方程檢驗結論:回歸關系達極顯著,可得線性回歸方程用光照強度估測凈光合強度是合理的。用光照強度估測凈光合強度是合理的。xy094868. 0955.1901 1、F F檢驗法檢驗法實例:實例:P161P161108102102494210000.005229ebxxQsnsS

10、SSS實例:實例:P161P16114.18005229. 0094868. 0bsbt2 2、t t 檢驗檢驗0.050.010.012 10 282.3063.355| | 18.143.355edfntttt ,結論:回歸關系極顯著,可得線性回歸方程結論:回歸關系極顯著,可得線性回歸方程 用光照強度來預測凈光合強度是合理的。用光照強度來預測凈光合強度是合理的。實例:t 檢驗190.9550.094868yx第四節節 預測值的置信區間預測值的置信區間ysty05. 0211yexxxssnSS因此因此由由x預測預測y時,時,y 的的95%95%置信區間為:置信區間為:由由x預測預測y時,時

11、,y有一定的誤差,其標準誤差為:有一定的誤差,其標準誤差為:實例: 由x預測y的預測區間67.384942100030702500101176.362ys第一步:計算當第一步:計算當x=2500=2500時,時, y 的點估計值:的點估計值: 第二步:求第二步:求y的標準誤差:的標準誤差:125.4282500094868. 0955.190y實例: 由X預測Y的預測區間95.33867.38036. 2125.42805. 0ysty0.05428.1252.036 38.67517.30yyts第三步:求第三步:求y的置信區間:的置信區間:第四步:結論第四步:結論有有9595的把握預測當樹

12、冠的光照強度為的把握預測當樹冠的光照強度為25002500時,凈光合作用的強度在時,凈光合作用的強度在338.95338.95到到517.30517.30之間。之間。第五節節 多元線性回歸分析多元線性回歸分析一、多元線性回歸分析概述一、多元線性回歸分析概述 上面討論的只是兩個變量的回歸問題,其中因變量只與一個自變量相關。但在大多數的實際問題中,影響因變量的因素不是一個而是多個,我們稱這類多自變量的回歸問題為多元回歸分析。 這里著重討論簡單而又最一般的線性回歸問題,這是因為許多非線性的情形可以化為線性回歸來做。多元線性回歸分析的原理與一元線性回歸分析完全相同,但在計算上卻要復雜得多。01 122

13、mmyxxx一、多元線性回歸分析概述一、多元線性回歸分析概述多元線性回歸模型多元線性回歸模型多元線性回歸方程多元線性回歸方程mmxbxbxbby22110第五節節 多元線性回歸分析多元線性回歸分析式中式中0 0 1 1 2 2 m m 為(偏)回歸系數為(偏)回歸系數式中式中b b0 0 b b1 1 b b2 2 b bm m 為(偏)回歸系數的估計值為(偏)回歸系數的估計值根據最小二乘法原理,根據最小二乘法原理, 的估計值的估計值 應該使應該使 )(mbi,1,2, 0i), 2 , 1 , 0(mii二、參數估計方法二、參數估計方法最小二乘準則最小二乘準則由求極值的必要條件得:由求極值的

14、必要條件得:min)()(122211012nimimiiiniiixbxbxbbyyyQ),2, 1(0)(20)(2110mjxyybQyybQnajiiijniii第五節節 多元線性回歸分析多元線性回歸分析采用矩陣形式:采用矩陣形式: Y = XB+E二、參數估計方法二、參數估計方法最小二乘準則最小二乘準則解得:解得:nmnnmmmxxxxxxxxxxxxX213233122221112111111nyyyY21mbbbbB210YXXXB)(1第五節節 多元線性回歸分析多元線性回歸分析n2101 1、回歸方程的假設檢驗、回歸方程的假設檢驗三、假設檢驗三、假設檢驗原假設原假設 H H0

15、0 :1 12 2 m0 0F F統計量為:統計量為:/(1)U mFQnm回歸平方和:回歸平方和: 自由度:自由度:m2)(yyUi誤差平方和:誤差平方和: 自由度:自由度:n-m-12)(iiyyQ第五節節 多元線性回歸分析多元線性回歸分析2 2、回歸系數的假設檢驗、回歸系數的假設檢驗統計量為統計量為t t:ibiSbt 其中:其中:C C(i+1)(i+1)為矩陣為矩陣(X(XX)X)-1-1的的( (i+1)(+1)(i+1)+1)元素元素 Q 為誤差平方和為誤差平方和,自由度:自由度:df= =n- -m-1-1)1)(1(iiybcSSi第五節節 多元線性回歸分析多元線性回歸分析原

16、假設原假設 H H0 0 :i0 01 1)t t檢驗檢驗1mnQSy2 2、回歸系數的假設檢驗、回歸系數的假設檢驗統計量為:統計量為:1/1/)1)(1(2mnQcbmnQUFiiii其中:其中:Ui 為為x xi對對y y的回歸平方和,的回歸平方和,Q 為誤差平方和為誤差平方和 C C(i+1)(i+1)為矩陣為矩陣(X(XX)X)-1-1的的( (i+1)(+1)(i+1)+1)元素元素 自由度:自由度:df1 = = 1 df2 = = n-m-1第五節節 多元線性回歸分析多元線性回歸分析原假設原假設 H H0 0 :i0 02 2)F F檢驗檢驗四、回歸模型的選擇四、回歸模型的選擇

17、由于自變量較多時,不是每一個自變量的回歸由于自變量較多時,不是每一個自變量的回歸關系都顯著,對回歸不顯著的自變量不能簡單的關系都顯著,對回歸不顯著的自變量不能簡單的進行剔除。進行剔除。 尤其時自變量之間存在嚴重的線性關系時,自尤其時自變量之間存在嚴重的線性關系時,自變量之間相互影響,很難對自變量的去留做出抉變量之間相互影響,很難對自變量的去留做出抉擇。擇。 為了獲得最優回歸方程,就需要對自變量進行為了獲得最優回歸方程,就需要對自變量進行篩選。篩選。第五節節 多元線性回歸分析多元線性回歸分析常用的自變量的篩選方法:常用的自變量的篩選方法:第五節節 多元線性回歸分析多元線性回歸分析1 1、向前引入

18、法(、向前引入法(ForwardForward) 按顯著性程度,逐個將回歸模型外自變量引入按顯著性程度,逐個將回歸模型外自變量引入回歸模型,直到沒有顯著的自變量引入為止?;貧w模型,直到沒有顯著的自變量引入為止。2 2、向后剔除法(、向后剔除法(BackwardBackward) 對全回歸模型中不顯著的自變量依次剔除,直到對全回歸模型中不顯著的自變量依次剔除,直到回歸模型中剩余自變量都顯著為止。回歸模型中剩余自變量都顯著為止。3 3、逐步篩選法(、逐步篩選法(StepwiseStepwise) 逐個引入最顯著的自變量,同時對模型中不顯逐個引入最顯著的自變量,同時對模型中不顯著的自變量進行剔除,直

19、到沒有引入和剔除為止。著的自變量進行剔除,直到沒有引入和剔除為止。五、回歸模型的判別準則五、回歸模型的判別準則1. R1. R2 2 決定系數決定系數 Adj RAdj R2 2 矯正的決定系數矯正的決定系數 n為觀測數,為觀測數,p為含截距的參數個數,為含截距的參數個數,i為截距數為截距數 決定系數的值越大,越接近于決定系數的值越大,越接近于1 1模型擬合越好。模型擬合越好。第五節節 多元線性回歸分析多元線性回歸分析總平方和回歸平方和TrSSSSR222_11niAdjRRnp 五、回歸模型的判別準則五、回歸模型的判別準則2. PRESS 2. PRESS 統計量統計量預測殘差平方和預測殘差

20、平方和 其中其中 ri 為殘差,為殘差,hi 為杠桿率為杠桿率 PERSS PERSS統計量用來比較不同方法所建立的回歸模統計量用來比較不同方法所建立的回歸模型的優劣,型的優劣,PRESSPRESS的值越小,模型越好。的值越小,模型越好。21iihrPRESS1iiihXX XX第五節節 多元線性回歸分析多元線性回歸分析五、回歸模型的判別準則五、回歸模型的判別準則3. Cp 3. Cp 統計量統計量 其中其中 k 為參數個數,為參數個數,n 為觀測數為觀測數 ESS(k)(k)為含為含k k個參數的誤差平方和個參數的誤差平方和 ESS(T)(T)為全回歸的誤差平方和為全回歸的誤差平方和 Cp

21、Cp統計量的值越小,回歸模型越好。統計量的值越小,回歸模型越好。第五節節 多元線性回歸分析多元線性回歸分析nkmnTESSkESSCp) 1(2) 1()()(一、殘差(一、殘差(Residual)分析)分析殘差:指實測值和預測值之間的差。殘差:指實測值和預測值之間的差。iiiyyr)(iiirVarre 第六節節 回歸診斷回歸診斷標準化殘差:標準化殘差:學生化殘差:學生化殘差:)()1 (iiiirVarhre學生化殘差使殘差具有優良的可比性學生化殘差使殘差具有優良的可比性殘差圖:以觀測值殘差圖:以觀測值(x或或y)為橫坐標,殘差為縱坐標為橫坐標,殘差為縱坐標第六節節 回歸診斷回歸診斷方差非

22、齊性時,可用加權最小二乘法回歸,或方差非齊性時,可用加權最小二乘法回歸,或者對因變量的數據進行適當的變換,如:者對因變量的數據進行適當的變換,如:第六節節 回歸診斷回歸診斷),(),(),(0Y10lnY0YZYZYYZ觀測值不獨立時(共線性):觀測值不獨立時(共線性):說明自變量之間存在著一定的相關性??赡苷f明自變量之間存在著一定的相關性??赡苓z漏了某些重要的自變量;可用逐步回歸、遺漏了某些重要的自變量;可用逐步回歸、偏最小二乘法回歸或嶺回歸等進行分析。偏最小二乘法回歸或嶺回歸等進行分析。第六節節 回歸診斷回歸診斷異常點的識別:異常點的識別:1. 杠桿率杠桿率hi 刻劃第刻劃第i各觀測值到中

23、心的遠近。各觀測值到中心的遠近。2. 一般把標準化殘差的絕對值一般把標準化殘差的絕對值2的點認為是的點認為是可疑點,絕對值可疑點,絕對值3的點認為是異常點。考慮的點認為是異常點??紤]是否作為例外值加以剔除或做其它處理。是否作為例外值加以剔除或做其它處理。1iiiXXXXh杠桿率較大的數據點可以判別為可疑點。杠桿率較大的數據點可以判別為可疑點。第六節節 回歸診斷回歸診斷二、貢獻分析二、貢獻分析貢獻分析:從研究觀測點對回歸結果的影響入貢獻分析:從研究觀測點對回歸結果的影響入手,找出對回歸結果影響比較大的觀測點。手,找出對回歸結果影響比較大的觀測點。若存在對回歸結果影響比較大的觀測點時,得若存在對回

24、歸結果影響比較大的觀測點時,得到的回歸模型無法保證其穩定性和應用效果。到的回歸模型無法保證其穩定性和應用效果。我們希望每個觀測點對回歸結果都產生一定的我們希望每個觀測點對回歸結果都產生一定的影響,個別觀測的改變不會對回歸模型產生較影響,個別觀測的改變不會對回歸模型產生較大的影響。大的影響。對強影響點的值進行復驗,或增大樣本容量。對強影響點的值進行復驗,或增大樣本容量。1)()()(1iiiiiixXXxsYYDFFITS1、DFFITS統計量統計量此統計量衡量一個觀測排除與否對預測值的影響此統計量衡量一個觀測排除與否對預測值的影響( )( )iiiYiYsi為剔除第 個觀測后回歸模型 的預測值

25、為剔除第 個觀測后回歸模型的誤差均方根第六節節 回歸診斷回歸診斷一般當一般當 時,時,該觀測值應作為強影響點加以關注。該觀測值應作為強影響點加以關注。| 2 (1)/DFFITSknk(注: 為自變量個數)2)()() 1(iiiiiiskbbXXbbD2、Cooks D統計量統計量此統計量衡量一個觀測排除與否對回歸系數的影響此統計量衡量一個觀測排除與否對回歸系數的影響一般當一般當 |Di|4/n 時,該觀測值應作為強影響點時,該觀測值應作為強影響點加以關注。加以關注。為回歸模型的誤差均方的估計值個觀測后回歸系數為剔除第2)(iisbib第六節節 回歸診斷回歸診斷第六節節 回歸診斷回歸診斷三、共線性診斷三、共線性診斷共線性:擬合共線性:擬合多元線性回歸多元線性回歸時,自變量之間時,自變量之間存在線性或近似線性的關系。存在線性或近似線性的關系。共線性存在時,可能會隱藏某些自變量的顯共線性存在時,可能會隱藏某些自變量的顯著性,增加擬合模型的方差,產生很不穩定著性,增加擬合模型的方差,產生很不穩定的回歸模型。的回歸模型。進行共線性診斷的方法是基于對自變量的觀進行共線性診斷的方法是基于對自變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論