回歸分析與方差分析_第1頁
回歸分析與方差分析_第2頁
回歸分析與方差分析_第3頁
回歸分析與方差分析_第4頁
回歸分析與方差分析_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第九章  回歸分析與方差分析9.1  回歸分析 “回歸”(英文“regression”)是由英國著名生物學家兼統計學家高爾頓(Galton)在研究人類遺傳問題時提出來的.為了研究父代與子代身高的關系,高爾頓搜集了1078對父親及其兒子的身高數據.他發現這些數據的散點圖大致呈直線狀態,也就是說,總的趨勢是父親的身高增加時,兒子的身高也傾向于增加.但是,高爾頓對試驗數據進行了深入的分析,發現了一個很有趣的現象回歸效應.因為當父親高于平均身高時,他們的兒子身高比他更高的概率要小于比他更矮的概率;父親矮于平均身高時,他們的兒子身高比他更矮的概率要小于比他更高的概率.它反映

2、了一個規律,即這兩種身高父親的兒子的身高,有向他們父輩的平均身高回歸的趨勢.對于這個一般結論的解釋是:大自然具有一種約束力,使人類身高的分布相對穩定而不產生兩極分化,這就是所謂的回歸效應。高爾頓依試驗數據還推算出兒子身高()與父親身高()的關系式它代表的是一條直線稱為回歸直線,并把相應的統計分析稱為回歸分析.對于其它能反映變量相關關系中具有回歸效應的現象分析,回歸一詞得以沿用.但是,上式僅反映了變量相關關系的一種特殊情況,對于更多的相關關系,特別是涉及多個變量的情況,并非如此.將對應的相關分析,都稱為回歸分析,不一定恰當.可是,這個詞卻一直沿用下來.   

3、0;   一元線性回歸設變量和之間存在著相關關系,其中是可以精確測量或可控制的變量(非隨機變量),是一個隨機變量.假定和存在著線性相關關系.先看一個例子.例考察某種化工原料在水中的溶解度與溫度的關系,共作了9組試驗.其數據如表9.1.1所示,其中表示溶解度,表示溫度.表溫度01020304050607080溶解度14.017.521.226.129.233.340.048.054.8 圖畫出散點圖,見圖,這些點雖然是散亂的,但大體上散布在某條直線的周圍,即是說溫度與溶解度之間大致呈現線性關系其中不是的實際值,是估計值.一般地,用線性函數來估計的數學期望的問題,稱為

4、一元線性回歸問題.稱方程                                     ()            &#

5、160;                    為的關于的線性回歸方程.稱斜率為回歸系數.對于的每個值,設                         &#

6、160;          ()           或,    其中是與無關的常數.對于已知數據,用最小二乘法來估計和,有離差平方和                    

7、60;                          ()                        

8、    為了使取得最小值,將分別對和求偏導數,并令它們等于零,得                                      ()    

9、;             或者寫成                              ()       

10、60;       由于                                           ()

11、60;                                                   &

12、#160;     ()              則()式可以寫作                      ()        

13、;      方程組()稱為正規方程組.因為 不完全相同,所以方程組()的系數行列式         大于零,故方程組()有唯一的一組解                 ()           記 

14、              ()                ()                      

15、0;     ()           分別稱和為和的離差平方和,稱為和 的離差乘積和.則有                               

16、60;             ()            將()代入到回歸方程(9.1.1)中,則得到經驗回歸方程                     &

17、#160;                        ()            ()式中的 與(9.1.1)式中的不同,由理論回歸方程(9.1.1)所確定的對應于數值的隨機變量的數學期望,而是由經驗回歸方程(9.1.14) 所確定的對應于數值的

18、隨機變量的數學期望的估計,它將會隨著觀測值的不同而變化.稱為回歸值.在直角坐標系中,方程(9.1.14)是一條直線,因此稱為經驗回歸直線.         將代入()式中,可得                             

19、60;      ()            此式表明,對于一組觀測值,,經驗回歸直線()通過散點圖的幾何中心.  例  求例9.1.1中 溶解度關于溫度的線性回歸方程.解:由表表1234567890102030405060708014.017.521.226.129.233.340.048.054.8010040090016002500360049006400017542478311681665

20、240033604384196.00306.25449.44681.21852.641108.891600.002304.003003.04360284.1204001435910501.47=9,代入()、(9.1.11)和(9.1.13)式算得,          6000  29951533.38  0.4992    11.599由()式得所求的線性經驗回歸方程為       &

21、#160; 11.599+0.4992    從這個經驗回歸方程,我們能夠看到,溫度每上升1個單位(),溶解度將增加0.4992.一般來說,一個經驗回歸方程是不是真正描述了兩個變量之間的關系,可以根據實踐來檢驗,從問題的專業知識角度來分析.當然從數理統計的角度也有一些檢驗的方法.  一元線性回歸的假設檢驗 對于給出的一組觀測值()(),在利用最小二乘法得到經驗回歸方程之后,還要討論下列問題:經驗回歸方程  作為的估計其效果是否好?如果答案是否定的,()式不能使用;如果答案是肯定的,則相關的密切程度如何?如果(9.1.14)有意義,怎樣用它來進行

22、預測和控制? 為了判斷回歸方程()是否有意義,我們應該檢驗線性回歸效果是否顯著,或者說檢驗變量與之間是否存在線性相關關系,即是否基本上隨著的增大而線性地增大(或線性地減小).為此,應當考察相關系數假設檢驗.相關系數是表示隨機變量與自變量之間相關程度的一個數字特征.因此,要檢驗變量與變量之間線性相關關系是否顯著,確定與之間線性相關關系的密切程度,應當考查相關系數的大小.在相關系數未知的情況下,利用樣本觀測值()()確定樣本相關系數(記作).考察觀測值 ,個觀測值離差平方和           &#

23、160;                        ()              它反映了觀測值總的分散程度.若記         &

24、#160;         ()則有     =                                     

25、;             由()式及(9.1.4)式,有=                   所以      ()             

26、60;        令()式中                                      ()    

27、                                        ()            則

28、                                 ()      稱為回歸平方和,是總離差中由于與的線性關系而引起變化的部分,它反映了回歸值的分散程度,可以通過控制而掌握. 稱為剩余平方和,這個量是()式中所給出的離差平方和

29、中的最小值,它反映了觀測值 ()偏離經驗回歸直線的程度,這種偏離是由于觀測誤差等隨機因素造成的.                                             &#

30、160;                                    ()              

31、;                                                    &#

32、160;             ()                回歸效果的好壞取決于及的大小,取決于在總離差平方和中的比重,比重越大,回歸效果越好.則相關系數              

33、0;                  ()                                 

34、                      ()           作為相關系數的估計值.由()式及(9.1.24)式得與的關系              &

35、#160;                                 ()            或    

36、60;                                       ()            

37、;                                                  

38、;                                                  

39、;                                                   

40、60;                      ()                           &

41、#160;                                                  

42、               ()            由于是總離差平方和中的一部分,而又不能為負,因此,可以推出 ,從而,即.當時,表明變量與線性相關.此時,在散點圖上,所有的觀測點全部在同一條直線上.當時,表明變量完全不與發生關系.此時,變量與之間不存在線性關系.一般有兩種情況,一是變量與之間的變化的確不存在任何統計規律性,它們的觀測值在散點

43、圖上的分布是完全不規則的.二是變量與之間雖然不存在線性相關關系,但可能存在其它種類的相關關系.當比較大時,表明變量與之間的線性相關關系比較密切,此時,它們的觀測值在散點圖上的分布與回歸直線比較接近.當比較小時,表明變量與之間的線性相關關系不密切,在散點圖上,諸觀測點離回歸直線比較疏遠.由()式可知,當時,表明用已知觀測點配出的回歸直線的斜率為正,變量與大致是按正比例變化的,此時稱與為正相關.反之,當時,變量與大致是按反比例變化的,此時稱與為負相關.由此可見,的大小可以衡量與之間是否有線性相關關系,而且越大,線性相關關系越顯著,回歸效果就越好.為了檢驗變量與之間的線性相關關系是否顯著,我們檢驗假

44、設                                       ()           &#

45、160;   是否成立.究竟應當多大,才能認為隨機變量與之間的線性相關關系顯著呢?回歸平方和的自由度等于1,剩余離差平方和的自由度為,則為變量,所以可用                                     &#

46、160;    ()則有                          ()            對于給定的顯著性水平,不難由算出相關系數的臨界值,并且僅依賴于自由度.本書給出附表:相關系數臨界值表.所以

47、,先由觀測數據計算出樣本相關系數,并從附表:相關系數臨界值表中查出臨界值,若,則我們拒絕假設         也就是說,即兩個變量之間線性相關關系是顯著的.反之,若,則接受假設 ,即, 說明兩個變量之間線性相關關系不顯著.一般地,當時,則認為變量與之間的線性相關關系不顯著,或者不存在線性相關關系;當時,則認為變量與之間的線性相關關系顯著;當時,則認為變量與之間的線性相關關系特別顯著.例  本章例9.1.1,利用相關系數的顯著性檢驗來檢驗溶解度與溫度之間的線性相關關系是否顯著.解:由例已知6000 

48、; ,2995 ,1533.38 按()式,得 0.987查附表:相關系數臨界值表,當=9時,        0.666,  0.798因為,所以這種化工原料在水中溶解度與溫度之間的線性相關關系特別顯著.這與例中分析的結論是一致的.綜上所述,討論兩個變量與之間的線性回歸問題,一般步驟,.首先根據觀測值按公式()、(9.1.11)、(9.1.12)計算,及,再按公式(9.1.25)計算樣本相關系數的值,查閱相關系數臨界值表,得到相關系數的臨界值,并以此來推斷隨機變量與之間的線性相關關系是否顯著.如果變量與之

49、間的線性相關關系顯著則可按公式()計算及值,代入方程(9.1.14),即得變量關于的經驗回歸方程,它大致地描述了變量與之間的變化規律.       利用一元線性回歸方程進行預測和控制如果隨機變量 與變量之間的線性相關關系顯著,則利用觀測值()()求出經驗回歸方程     大致反映了變量 與變量之間的變化規律.但是,由于它們之間的關系不是確定性的,所以對于的任一給定值,由經驗回歸方程只能得到相應的的估計值        

50、0;                             ()         我們須要對于給定的置信度,確定的置信區間,稱為預測區間.即尋找一個正數,使得估計值以的置信度落在區間內,這就是預測問題.假設  

51、;                             ()            有           

52、;                  ()           將代入()式,可得                    

53、;      ()           由()式,則有                                  

54、0;                                ()            可見,以作為 的點估計是無偏估計.由()式及(9.1.35)式,有 

55、60;            由于服從正態分布,且是的無偏估計,則有          并可導出            則有              

56、0;             ()            由于與相互獨立,因而與獨立.若記                        &

57、#160;                    ()          則有                    &

58、#160;           ()          以及                              

59、                               ()            所以        

60、                                 ()            可以證明與相互獨立,從而    &#

61、160;                            ()           即                        ()           (其中)于是可以得到的置信區間,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論