excel一元及多元線性回歸實例_第1頁
excel一元及多元線性回歸實例_第2頁
excel一元及多元線性回歸實例_第3頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、野外實習資料的數理統計分析 一元線性回歸分析一元回歸處理的是兩個變量之間的關系,即兩個變量X和Y之間如果存在一定的關系, 則通過觀測所得數據,找出兩者之間的關系式。如果兩個變量的關系大致是線性的, 那就是一元 線性回歸問題。對兩個現象X和Y進行觀察或實驗,得到兩組數值:X1, X2,,Xn和Y1, Y2,,Yn,假如要找出一個函數 Y=f(X),使它在X=X1,X2,Xn時的數值f(X1),f(X2),f(Xn)與觀察值Y1, Y2,,Yn趨于接近。在一個平面直角坐標 XOY中找出(X1, Y1),( X2, Y2),,(Xn, Yn)各點,將其各點 分布狀況進行察看,即可以清楚地看出其各點分

2、布狀況接近一條直線。對于這種線性關系, 可以用數學公式表示:Y = a + bX這條直線所表示的關系, 叫做變量丫對X的回歸直線,也叫Y對X的回歸方程。其中a為常 數,b為Y對于X的回歸系數。對于任何具有線性關系的兩組變量Y與X,只要求解出a與b的值,即可以寫出回歸方程。計算a與b值的公式為:a=Y-bX式中:為變量X的均值,Xi為第i個自變量的樣本值,一為因變量的均值,Yi為第i個 因變量Y的樣本值。n為樣本數。當前一般計算機的 Microsoft Excel中都有現成的回歸程序,只要將所獲得的數據錄入就可自動得到回歸方程。得到的回歸方程是否有意義,其相關的程度有多大, 可以根據相關系數的大

3、小來決定。通常用r來表示兩個變量 X和Y之間的直線相關程度,r為X和Y的相關系數。r值的絕對值越 大,兩個變量之間的相關程度就越高。當r為正值時,叫做正相關,r為負值時叫做負相關。r的計算公式如下:辛(逅-環(E -力/區")吃式中各符號的意義同上。在求得了回歸方程與兩個變量之間的相關系數后,可以利用F檢驗法、t檢驗法或r檢驗法來檢驗兩個變量是否顯著相關。具體的檢驗方法在后面介紹。2 多元線性回歸分析一元回歸研究的是一個自變量和一個因變量的各種關系。但是客觀事物的變化往往受到多種因素的影響,即使其中有一個因素起著主導作用,但其它因素的作用也是不可忽視的。因此,我們還需要研究多種變量的

4、關系,這種多個變量之間的關系就叫做多元回歸問題。例如,水稻的產量不僅與生長期內的雨量有關,而且與溫度也有關系。 所以尋求水稻的產量不僅與生長期內的雨量之間的相互關系,就是多元回歸問題。如果假設自變量為 X1, X2,,Xm因變量為Y,而且因變量與自變量之間是線性的關系,則因變量Y與自變量為X1, X2,,Xm的多元線性回歸方程為:Y = a+b1X1+b2X2+ +bmXm式中:a, bl, b2, bm為常數。因此,只要能夠求出 a, b1, b2,,bm這些常數,就可以得到因變量Y與自變量為X1,X2,,Xm之間的多元回歸方程。具體的算法比較簡單,但很煩瑣。這里不再敘述。求解 多元回歸的計

5、算機程序很多, 只要將自變量的數據以及與其相對應的因變量的數據輸入計算 機程序中,立刻就可以求出 a, b1, b2,,bm各常數的值,從而可以獲得因變量Y與自變量為X1, X2,,Xm的多元線性回歸方程。例如,設已知因變量 Y的自變量X1, X2, X3,共得18組數據,并已知 Y對Xi存在著線性 關系,求其回歸方程。樣品X1X2X3Y10.4531586420.4231636033.119377140.6341576154.724595461.7651237779.4444681810629173931012.658112511110.937111761223.1

6、46114961323.150134771421.64473931523936143541726.8582021681829.95112499通過求解,得到 a=41.6516b1=1.7410b2=-0.0062b3=0.1553所以,回歸方程為Y=41.6516+1.7410 X1 -0.0062 X2+0.1553 X3通常可采用單相關系數、 偏相關系數和復相關系數來說明這三個自變量與因變量之間是否有 明顯的線性關系以及它們之間相關的程度如何。單相關系數是指在不考慮其他因素影響的條件下,所求兩個變量之間的相關系數。用rX1X2、rYX1和rYX2分別表示X1和X

7、2、Y和X1以及Y與X2之間的單相關系數。偏相關系數是指在這三個變量中,將其中一個變量保持常 數時,其他兩個變量之間的相關系數。用rYX1X2和rYX2X1分別表示X2為常數時,Y與X1的偏相關系數和X1為常數時,Y與X2的偏相關系數。偏相關系數可以用單相關系數求得。當這三個變量中,同時考慮兩個變量對另一個變量相關系數時,叫做復相關系數。用(X1X2)Y表示X1和X2、兩個自變量對于 Y的復相關系數。3. 方差分析方差分析法是分析多組平均數之間差異顯著性時常用的一種統計方法。方差(或均方)是一個表示變異程度的量,它是離均差的平方和與自由度之商。在一項實驗或調查中往往存在著許多造成生物形狀變異的

8、因素,這些因素有比較重要的,也有較次要的。分析時主要是把平方和與自由度按不同的變異起因分解為若干部分,從而構成來自不同起因的方差。 利用它來檢驗各組平均數之間差異的顯著性。在正態總體及方差相同的基本假定下,我們將利用方差比給出F分布的檢驗統計量。因此這種方法稱為方差分析法。方差分析是分析和處理試驗或觀測數據的主要方法之一。它首先被應用于農業試驗,目前它在農業、工業、生物、醫學等各部門有著廣泛的應用。方差分析的方法往往與試驗設計的方式緊密地聯系在一起。對于從不同試驗設計中得出觀測資料,進行方差分析時將有不同的計算方法,類型繁多,但其基本原理卻大同小異。在這里將結合一個較簡單的例子介紹方差分 析的

9、數學模型和基本方法,以便于讀者對方差分析的方法有一個大致的了解。在實驗設計的基礎上,分組試驗,如分為a組,每組作b個水平的試驗,共得到 axb個數據。然后,算出組平均值和總平均值,組內和組間的離差平方和,組內和組間方差,作F檢驗。F=組間方差/組內方差假設H0: 1 1 = 12=1 b ,表示各水平的均值相等。當 F w F a時,H0:真; 當F > F a時,H0:假。試驗中必不可少地會產生誤差。誤差有兩種:條件誤差和試驗誤差。 前者是由試驗條件不同而引起的系統性誤差,后者是在相同試驗條件下引起的隨機誤差。例如,把四種不同的飼料分別喂給4組小雞,每組5只,它們的增重情況如下:組別增

10、重(Xij )1554942215226111230896334297819592416913716885153試問四組小雞在平均增重量方面有沒有明顯的差別?通過計算,得到組內和組間方差分別為719.2和8706.3,因此,F=8706.3/719.2=12.1對于給定的顯著性水平a,將有臨界值 Fa,當a =0.01時,F0.01(3,佝=5.3 ,其中3 與16是自由度。所以 F=12.1>5.3= F0.01(3,16)故,否定各種飼料效果一致的假設,可以認為四種飼料的效果有極明顯的差別。目前現成的計算機方差分析計算程序很多,如SPASS SAS軟件等,將數據輸入后,都可以直接計算

11、,并按要求輸出結果。上述例子是單因素的方差分析,比較簡單。對于多因素的方差分析,由于比較復雜,這里就不再敘述了。4. T檢驗生物學中所遇到的絕大多數問題, 總體標準差b都是未知的。 在b未知時,平均數的顯著性 檢驗有兩種解決方法。 其一是根據以往的經驗或從類似的工作中估計出一個b值,用這個b做1檢驗。使用估計的b做檢驗并不是很可靠的。因此在實際工作中, 一般不用這種方法而廣泛使用t檢驗。對于一個正態分布總體,若b未知則一服從n-1自由度的t分布,因此,在b未知時可以用t檢驗做平均數的顯著性檢驗。t檢驗的零假設H0為:1 =1 0備擇假設有以下三種情況:(1) HA卩 >卩0,若已知不可能

12、小于卩0; (2) HA:卩 <卩0, 若已知不可能大于卩 0;( 3)HAyMy 0,包括卩 >卩0和卩 <卩0。三種備擇假設的拒絕域為:(1) t>t a ; ( 2) t< -t a;( 3) t > t a /2,或表示為 t > t a (雙側)。其中a為給定的顯著性水平。t檢驗的統計量為:t =(一- y 0) / (s/n1/2 )例如,已知玉米單交種群單105的平均穗重y 0=300克,噴藥后,隨機抽取9個果穗,其穗重為分別:308、305、311、298、315、300、321、294、320克。問噴藥后與噴藥前的果穗 重差異是否顯著

13、?根據上面介紹的基本程序:*已知玉米穗重是服從正態分布的隨機變量,6未知。(2) 假設:H0 : y =y 0=300HA yMy 0=300由于問題要求檢驗的是“果穗重差異是否顯著”,并沒有明確穗重一定增加或一定減少,所以備擇假設為HAyMy 0(3) 顯著性水平:根據實驗的要求(差異是否“顯著”)規定a=0.05。(4) 統計量的值:由于6未知需使用t檢驗。t =(一 - y 0) / (s/n1/2 )t =(308-3000 ) / (9.62/91/2 ) =2.49 建立的拒絕域 H0:因HA yMy 0,所以是雙側檢驗。當t > t0.05(雙側)時拒絕 H0,a =0.0

14、5 時,經查表 t8 , 0.05 (雙側)=2.306 。(6)結論:因t =2.49> t8 , 0.05 (雙側)=2.306,所以結論是拒絕 H0,接受HA即噴藥前后果穗重的差異是顯著的。5. F檢驗t檢驗屬于單個樣本的顯著性檢驗,即在樣本統計量與零假設所提出的總體參量之間做比較。這種檢驗需要我們事先能夠提出合理的參量假設值和對參量有某種意義的備擇值。然而,在實際工作中,很難提出這樣的假設值及備擇值。因此,限制了這種方法在實際工作中的應用。為了避免上述問題的出現,在實際應用時,常常選擇兩個樣本,一個作為處理,一個作為對照。在這兩個樣本之間做比較。判斷它們之間是否存在足夠顯著的差異。當它們之間的差異不能用偶然性解釋時,則認為它們之間存在足夠顯著的差異,這兩個樣本來自兩個不同的總體。而F檢驗是關于兩個方差的檢驗,所以常用F檢驗來解決上述問題。F檢驗的程序概述如下:(1) 假定從兩個正態總體中,獨立地抽取含量分別為 n1和n2的兩個隨機樣本,計算出s12 和S22。總體平均數卩1和卩2可以相等也可以不相等。(2) 零假設H0為仁b 2備擇假設有以下三種情況:(1) HA b 1>b 2,若已知b 1不可能小于b 2;(2) HA b1<b 2,若已知b 1不可能大于b 2;( 3) HA b 1b 2 ,包括b 1> b 2和b 1< b 2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論