




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十章 一元回歸與相關分析概述:許多問題需要研究多個變量之間的關系,例如生物的生長發育速度就與溫度,營養,濕度等許多因素有關。相關關系:兩變量X,Y均為隨機變量,任一變量的每一可能值都有另一變量的一個確定分布與之對應?;貧w關系:X是非隨機變量(如施肥)或隨機變量(如穗長),Y是隨機變量,對X的每一確定值xi都有Y的一個確定分布與之對應。區別:1.相關中的兩個變量地位對稱,互為因果;回歸中X是自變量,Y是因變量。兩種意義不同,分析的數學概念與推導過程不同,但如果使用共同標準即使y的殘差平方和最?。ㄗ钚《朔ǎ?,可得到相同的參數估計式。因此主要討論X為非隨機變量(不包含有隨機誤差)的情況,所得到的
2、參數估計式也可用于X為隨機變量的情況。2.分析目的不同?;貧w分析是建立X與Y之間的數學關系式,用于預測;而相關分析研究X與Y兩個隨機變量之間的共同變化規律,例如當X增大時Y如何變化,以及這種共變關系的強弱。分類:從兩個變量間相關(或回歸)的程度分三種:(1)完全相關。一個變量的值確定后,另一個變量的值可通過公式求出(函數關系);生物學研究中不太多見。(2)不相關。變量之間完全沒有任何關系。一個變量的值不能提供另一個變量的任何信息。(3)統計相關(不完全相關)。介于上述兩情況之間。知道一個變量的值通過某種公式就可以提供另一個變量的均值的信息。一個變量的取值不完全決定另一個變量的取值,但可或多或少
3、地決定它的分布。科研中最常遇到。研究“一因一果”,即一個自變量與一個依變量的回歸分析稱為一元回歸分析; 研究“多因一果”,即多個自變量與一個依變量的回歸分析稱為多元回歸分析。 一元回歸分析又分為直線回歸分析與曲線回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。 對兩個變量間的直線關系進行相關分析稱為直線相關分析; 研究一個變量與多個變量間的線性相關稱為復相關分析;研究其余變量保持不變的情況下兩個變量間的線性相關稱為偏相關分析。 注意:1.相關與回歸只是一種工具,不是不相干的數據拼湊在一起。 2.除X、Y等需研究的因素外,其他的要嚴格控制一致。(身高與胸圍的關系要控制體
4、重) 3.對子一般在5對以上4.需限制自變量范圍,結果不能隨意外延。第一節 一元線性回歸(一)直線回歸方程的建立對于兩個相關變量,一個變量用x表示,另一個變量用y表示,如果通過試驗或調查獲得兩個變量的n對觀測值: (x1,y1),(x2,y2),(xn,yn) 為直觀看出x和y間的變化趨勢,可將每一對觀測值在平面直角坐標系描點,作出散點圖 例11.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數據見表11.1。試計算日齡X與體重Y之間的回歸方程。表11.1 大白鼠6-18日齡的體重序號12345日齡xi69121518體重yi1116.5222629散點圖對X、Y之間的關系有直觀
5、的、整體上的印象,但是否有某種規律性,是接近一條直線還是一條曲線等,哪一條直線或曲線可以最好地代表X, Y之間的關系,不能做出判斷。圖11.1 大白鼠日齡體重關系圖一、 一元正態線性回歸統計模型:對于每個Y的觀察值yi來說,由于總是帶有隨機誤差,觀察值就應該是在均值的基礎上再加上一個隨機誤差,即: (11.2)其中。隨機誤差服從正態分布。這是一元正態線性回歸的統計模型。二、 參數和的估計模型中的和是參數,一般不知道。由于只能得到有限的觀察數據,無法算出準確的與的值,只能求出估計值a和b,并得到yi的估計值為: (11.3)a和b應使殘差最小。為了避免使正負ei互相抵消,定義使殘差平方和達到最小
6、的直線為回歸線,即令:,且SSe對a、b的一階偏導數等于0得: 整理后,得 (11.4)解此方程,得:這種方法稱為最小二乘法 記 ,稱為X的校正平方和; ,稱為Y的總校正平方和; ,稱為校正交叉乘積和,則: (11.7)a叫樣本回歸截距,是回歸直線與y軸交點的縱坐標,當x=0時, =a;b叫樣本回歸系數,表示x 改變一個單位,y平均改變的數量;b 的符號反映了x影響y的性質,b的絕對值大小反映了x 影響y 的程度;叫做回歸估計值,是當x在在其研究范圍內取某一個值時,y值平均數x的估計值回歸方程的基本性質: 1 最小2 0 3.直線通過(,) 轉化后得到回歸方程的另一種形式(中心化形式):在實際
7、計算時,可采用以下公式:例11.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數據見表11.1。試計算日齡X與體重Y之間的回歸方程。表5.1 大白鼠6-18日齡的體重序號12345日齡xi69121518體重yi1116.5222629解:把數據代入上述公式,得: 即:所求的回歸方程為:y = 2.6996 + 1.5167 x帶有統計功能的計算器,只需把數據依次輸入,然后按一下鍵就可得到上述結果。根據直線回歸方程可作回歸直線,并不是所有的散點都恰好落在回歸直線上,說明用 去估計y是有偏差的。三、直線回歸的偏離度估計 偏差平方和的大小表示了實測點與回歸直線偏離的程度,因而偏差平方
8、和又稱為離回歸平方和。統計學已經證明:在直線回歸分析中離回歸平方和的自由度為n-2。于是可求得離回歸均方為: 離回歸均方是模型中2的估計值。 離回歸均方的平方根叫離回歸標準誤,記為 ,即 Syx的大小表示了回歸直線與實測點偏差的程度,即回歸估測值 與實際觀測值y偏差的程度,于是把離回歸標準誤Syx用來表示回歸方程的偏離度。以后將證明: 利用此式先計算出 ,然后再求Syx 。 四、直線回歸的顯著性檢驗x和y變量間即使不存在直線關系,但由n對觀測值(xi,yi)也可以根據上面的方法求得一個回歸方程。顯然,這樣的回歸方程所反應的兩個變量間的直線關系是不真實的。需要判斷直線回歸方程的真實性。先探討依變
9、量y的變異,然后再作出統計推斷。1、 直線回歸的變異來源 的分解圖1) 一元回歸的方差分析(1) 無重復的情況。y的總校正平方和可進行如下的分解:即: SSy = SSe + SSR y的總校正平方和 殘差平方和 回歸平方和自由度: n-1 n-2 1反映了y的總變異程度,稱為y的總平方和,記為SSy; 反映了由于y與x間存在直線關系所引起的y的變異程度,稱為回歸平方和,記為SSR; 反映了除y與x存在直線關系以外的原因,包括隨機誤差所引起的y的變異程度,稱為離回歸平方和或剩余平方和,記為SSe。把y的總校正平方和分解成了殘差平方和與回歸平方和。MSe可作為總體方差s2的估計量,而MSR可作為
10、回歸效果好壞的評價。如果MSR僅由隨機誤差造成的話,說明回歸失敗,X和Y沒有線性關系;否則它應顯著偏大。因此可用統計量 (11.10)對H0: b = 0進行檢驗。若F < Fa(1, n-2),則接受H0,否則拒絕。簡化公式:對例11.1作方差分析解:由以前計算結果: SSy = 210.2,df = 4; SSe = 3.1704, df = 3, SSR = 210.2 3.1704 = 207.03, df = 1 查表得F0.95(1, 3) = 10.13, F0.99(1, 3) = 34.12F > F0.99(1, 3),拒絕H0,差異極顯著。即應認為回歸方程有效
11、。(2) 有重復的情況:設在每一個xi取值上對Y作了m次觀察,結果記為yi1, yi2, yim, 則線性統計模型變為:, i = 1, 2, n, j = 1, 2, m估計值仍為:現在y的總校正平方和可分解為:SSy = SSR + SSLOF + SSpe其中SSLOF稱為失擬平方和,SSpe為純誤差平方和,表達式和自由度分別為:可試證明上述分解中的三個交叉項均為0。統計檢驗步驟為:I. 令,它服從F(n-2, mn-n) 若F檢驗差異顯著,則可能的原因有:(1)除X以外還有其他變量影響Y的取值,而統計時沒有加以考慮;(2)模型不當,即X與Y之間不是線性關系;此時無必要再進一步對MSR作
12、檢驗,而應想辦法找出原因,并把它消除后重作回歸。若差異不顯著,則把MSLOF和MSpe合并,再對MSR作檢驗:II. ,它服從F(1, mn-2) 若差異顯著,說明回歸是成功的,X, Y間確有線性關系;若差異仍不顯著,則回歸失敗,其可能的原因為:(1)X,Y無線性關系;(2)誤差過大,掩蓋了X, Y間的線性關系。如有必要,可設法減小實驗誤差,或增加重復數重做實驗后再重新回歸。二)一元回歸的t檢驗由于MSe的自由度為n-2,因此上述兩方差的自由度也均為n-2。有了a和b的方差與均值,我們就可構造統計量對它們進行檢驗:H0 : b = 0HA: b ¹ 0 (雙側檢驗)或: HA: b
13、> 0 (或b< 0) (單側檢驗)統計量: 其中,Sb為回歸系數標準誤。 當H0成立時,ta t(n-2),可查相應分位數表進行檢驗。對例11.1中的b作t-檢驗:H0: b=0解: 查表,t0.995(3) = 5.841 < t, 差異極顯著,應拒絕H0,即b ¹ 0,或X與Y有著極顯著的線性關系。上述統計量還有一個用途:進行兩個回歸方程間的比較。即檢驗H0: b1 = b2和H0: a1 = a2。如果兩H0均被接受,則可認為兩組數據是抽自同一總體,從而可將兩回歸方程合并,得到一個更精確的方程。例11.3 兩組實驗數據如下:x1919394969810210
14、5108y16668697173788285x280828587899195y255576062646771是否可從它們得到統一的回歸方程?解:從原始數據計算可得:組別nSxxSyySxyMSeba1898.37574.0257.875336.0294.00.13571.140-38.152787.062.286162.0187.429174.00.10801.074-31.15(1). 首先檢驗總體方差是否相等: 查表,F0.975(6, 5) = 6.978 > F, 接受H0,可認為兩總體方差相等。計算公共的總體方差:(2). 檢驗回歸系數b1與b2是否相等:H0: b1 = b2
15、; HA: b1 ¹ b2查表,得t0.975(11) = 2.201 > t, 接受H0,可認為兩回歸系數相等。共同總體回歸系數的估計值為:(3). 再檢驗a1,a2是否相等:H0: a1 = a2; HA: a1 ¹ a2查表,t0.975(11) = 2.201, 接受H0,可認為: a1 = a2。若檢驗結果為a1 ¹ a2,此題即可結束;但若檢驗結果為a1 = a2,則需把全部原始數據放在一起,重新進行回歸:Sxx = 902.9333, Sxy = 965.4667, Syy = 1035.7333, = 93.067, = 68.533, b
16、= 1.0693, a = 30.9787從而得到合并的回歸方程?,F在證明t檢驗與前述的F檢驗是一致的:前已證明:SSe = Syy b × Sxy, SSR = Syy SSe = b × Sxy, 五、點估計與區間估計前邊已經證明a和b是和的點估計;但作為預測值僅給出點估計是不夠的,一般要求給出區間估計,即給出置信區間。和的區間估計已經證明a和b是和的點估計,并求出了它們的方差。因此給出置信區間就很容易了: 的95%置信區間為: (11.13)同理a的95%置信區間為: (11.14)這與以前假設檢驗中的置信區間求法完全一樣。若置信水平為99%,把分位數相應換為t0.9
17、95(n-2)即可。對例11.1中的a和b給出95%置信區間。解:從前邊的計算可知: a = 2.6996, b = 1.5167, Sxx = 90, MSe = 1.0568, n = 5, 查表,得t0.975(3) = 3.182 a的95%置信區間為: 2.6996 ± 4.3887, 即(-1.6891, 7.0883)b的95%置信區間為:1.5167 ± 0.3448, 即(1.1719, 1.8615)第二節 相關分析直線相關分析是根據x、y的實際觀測值,計算表示兩個相關變量x、y間線性相關程度和性質的統計量相關系數r并進行顯著性檢驗。一、 相關系數。例:
18、(1)X 7 7 1 6 5 3 8 9 3 1 1 總和50 Y 5 9 6 1 3 1 9 4 6 6 6 總和52 (2)X 9 8 7 9 6 5 3 3 1 1 總和50 Y 9 9 8 6 6 5 4 3 1 1 總和52 (3)X 1 1 3 3 5 6 7 1 8 9 總和50 Y 9 9 8 6 6 5 4 3 1 1 總和52可見:(1)X、Y關系紊亂(2)X減小、Y也減?。?)X增大、Y減小 作散點圖,如果再以X和Y的平均數作坐標原點,將原散點圖劃分為四個象限,如果各點均勻分布則 0,落在2、4象限則小于0負相關,落在1、3象限則大于0正相關,為消除變異程度(n-1)和單
19、位的影響,需除以標準差。 根據以前的推導結果,有:性質: 。當時,從上式可看出SSe = 0,即用可以準確預測y值。此時若X不是隨機變量,則Y也不是隨機變量了。當r = 0時,SSe = Syy,回歸一點作用也沒有,即用X的線性函數完全不能預測Y的變化。但這時X與Y間還可能存在著非線性的關系。當時,情況介于上述二者之間隔。X的線性函數對預測Y的變化有一定作用,但不能準確預測,這說明Y還受其他一些因素,包括隨機誤差的影響。綜上,r可以作為X,Y間線性關系強弱的一種指標。非常直觀,接近于1就是線性關系強,接近于0就是線性關系弱;而其他統計量都需要查表后才知檢驗結果。二、決定系數和相關系數前面已經證
20、明了等式: 從這個等式:y與x直線回歸效果的好壞取決于回歸平方和 與離回歸平方和 的大小,或者說取決于回歸平方和在y的總平方和 中所占的比例的大小。這個比例越大,y與x的直線回歸效果就越好,反之則差。 比值 叫 做 x 對 y 的決定系數,記為 r2,即 決定系數的大小表示了回歸方程估測可靠程度的高低,或者說表示了回歸直線擬合度的高低。顯然有0r21。因為:而SPxy/SSx是以x為自變量、y為依變量時的回歸系數byx。若把y作為自變量、x作為依變量,則回歸系數 bxy =SPxy/Ssy ,所以決定系數r2等于y對x的回歸系數與x對y的回歸系數的乘積。即決定系數反應了x為自變量、y為依變量和
21、y為自變量、x為依變量時兩個相關變量x與y直線相關的信息,即決定系數表示了兩個互為因果關系的相關變量間直線相關的程度。但決定系數介于0和1之間,不能反應直線關系的性質是同向增減或是異向增減。另外,r顯著即一個顯著的回歸方程并不一定具有實踐上的預測意義 如一個資料x 、y兩個變量間的相關系數r =0.5,在 df = 24 時 ,r0.01(24) = 0.496,r>r0.01(24),表明相關系數極顯著。而r2=0.25,即x變量或y變量的總變異能夠通過y變量或x變量以直線回歸的關系來估計的比重只占25%,其余的 75% 的變異無法借助直線回歸來估計。 計算相關系數:根據公式三、相關系數的顯著性檢驗 在一般情況下r不是正態分布,直接檢驗有困難。但當總體相關系數= 0時,r的分布近似于正態分布,此時用MSe代替,就可以對作t檢驗。這種檢驗與對回歸系數b的檢驗:是等價的??勺C明如下:b的t檢驗統計量為:t = b/Sb。 b=Sxy/Sx
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業自動化設備維護與管理
- 工業自動化與智能制造成長關系研究
- 工作中的自我管理與領導力培養
- 工業設計在產品創新中的作用與價值
- 工業風與極簡風辦公室對比分析
- 工作效率提升與團隊協作技巧
- 工業領域智慧能源管理案例
- 工作效率工具使用經驗分享
- 工廠企業消防安全檢查標準
- 工廠生產線的日常巡檢要點與技巧
- 2024年黃岡團風縣招聘城區社區工作者真題
- 2025圖解《政務數據共享條例》V1.0學習解讀
- 2025電商平臺店鋪轉讓合同模板
- 2025年人教版(2024)初中英語七年級下冊期末考試測試卷及答案
- (2025)事業編考試題庫(附含答案)
- 女性美學課堂企業制定與實施新質生產力項目商業計劃書
- 部編版2024-2025學年四年級下冊語文期末測試卷(含答案)
- 2025年醫保政策考試題庫及答案:基礎解讀與醫保政策法規試題試卷
- 2025至2030年中國液化設備行業投資前景及策略咨詢研究報告
- 行政-接機流程及禮儀(定稿)
- DB44-T 2579-2024 嶺南傳統天灸技術操作規范
評論
0/150
提交評論