何興東-生物統計學課件 第10章 一元回歸及簡單相關分析_第1頁
何興東-生物統計學課件 第10章 一元回歸及簡單相關分析_第2頁
何興東-生物統計學課件 第10章 一元回歸及簡單相關分析_第3頁
何興東-生物統計學課件 第10章 一元回歸及簡單相關分析_第4頁
何興東-生物統計學課件 第10章 一元回歸及簡單相關分析_第5頁
已閱讀5頁,還剩12頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十章一元回歸及簡單相關分析何興東南開大學生命科學學院第十章一元回歸及簡單相關分析上課提綱:一、回歸和相關的根本概念二、一元線性回歸三、一元非線性回歸四、相關重點:回歸方程的擬合及其顯著性檢驗難點:回歸的方差分析第十章一元回歸及簡單相關分析一、回歸與相關的根本概念前面,我們學習了如何研究一種事物、兩種事物乃至多種事物的集中程度〔平均數〕或變異程度〔標準差〕。如作物產量,通過計算平均數和標準差,就可知道這種作物在產量上的總體和變異情況,進而根據變異程度進行u-檢驗、t-檢驗、F-檢驗和x2-檢驗,并可確定那個品種好,那個品種不好;可篩選出適宜的條件或措施,等等,而這些都沒有涉獵事物間或現象間的關系,這種研究事物間或現象間關系的統計方法就屬于回歸和相關。回歸這個名稱是英國遺傳學家FrancesGolton提出來的。他研究了人的身高、肘長和手的跨距等,發現:身材高的父母所生子女的身材也高,但是高身材的父母所生子女的平均身高不如他們父母那么高,但子女的身高是依靠父母的身高,他把這種趨向稱作回歸,即回歸到全體人口的平均身高,這種子女身高依賴父母身高的關系就是回歸關系。

回歸關系是一種函數關系,但它不同于數學上的函數關系。數學上的函數關系是一種確定性的關系,比方,圓的面積S=πr2,你抽取多少個總體,都遵從這一關系;而回歸關系是一種非確定性的關系,總體不同,函數關系就發生變化。生物統計就是從這種非確定性關系中去了解變量間的聯系。表述這種變量間的聯系有兩個指標:回歸和相關。

相關關系(correlation)——兩個隨機變量(X和Y)的相互對應關系(X

Y)。回歸關系(regression)——一個變量(X)和一個隨機變量(Y)的對應關系(X

Y)。

顯然,相關關系中兩個隨機變量沒有誰依賴誰的關系,而回歸關系中隨機變量是依賴于變量的。對于回歸分析而言,我們不但要弄清楚誰依賴誰,而且要搞明白依賴程度是否顯著。在回歸關系研究中,把變量〔X〕稱作自變量,把隨機變量〔Y〕稱作因變量。第十章一元回歸及簡單相關分析Ⅰ、一元回歸分析的意義二、一元線性回歸1、較少的工作量就可掌握事物或現象的趨勢或規律;假設土壤中NaCl含量為3.7g·kg-1,葉干重是多少?因為:y=11.161x+81.786x=3.7所以:y=11.161×3.7+81.786=123.1mg·dm-2

2、預測事物或現象的具體變化;對于重復1:80、90、95、115、130、115、135樣本方差:s2=431

因為:y=11.161x+81.786

誤差均方:MSe=70.7。誤差均方是樣本方差的16.4%。

因此,只有在引進自變量以后所得到的實驗誤差,才是真正的實驗誤差。

3、減小實驗誤差。第十章一元回歸及簡單相關分析二、一元線性回歸Ⅱ、一元直線回歸模型的建立:1、內涵

為了描述兩變量間的數量關系,當自變量時,因變量Y的平均數與之相對應,那么,稱為Y的條件平均數(conditionalmean)。

在實驗無限重復后,可以得到各xi上Y的條件平均數,這些平均數構成一條直線:

式中:α為直線的截距(intercept),β為斜率(slope)。

對于一對給定的X和Y與直線的離差(隨機誤差)ε,它獨立于X且服從于同一正態分布。

如上回歸模型只包含一個自變量X且具有正態性,所以稱為一元正態線性回歸模型。

一般情況下,得不到真正的α和β,只能求出它們的估計值a和b,從而得到一條估計的直線:

回歸方程估計值回歸系數畫出的線叫回歸線第十章一元回歸及簡單相關分析Ⅱ、一元直線回歸模型的建立:2、模型建立二、一元線性回歸每一次a和b取值不同,每一個數據點的不同。對于所有點而言,每一次a和b取值不同,每一個數據點的離差不同。回歸分析中,要使每一個離差都很小,必須選取適當的常數a和b,使得:達到最小,進而保證每個離差的絕對值都很小。這種根據離差的平方和為最小的條件來選擇常數的方法稱為最小二乘法(methodofleastsquare)。

第十章一元回歸及簡單相關分析目的明確以后,把L看成為自變量a和b的一個二元函數,那么問題就可歸結為求函數L=L(a,b)在那些點處取得的最小值,這樣就可通過數學方法可求出使L到達最小時的常數a和b。二、一元線性回歸Ⅱ、一元直線回歸模型的建立:2、模型建立得正規方程(normalequation):

解正規方程,得到α和β的最小二乘估計a和b:

校正交叉乘積和SXYX的校正平方和SXX計算估計值a和b時的程序:

X和Y的校正交叉乘積和:

X的校正平方和:Y的校正平方和:直線回歸方程的兩個性質:(1);(2)回歸直線必須通過中心點。

〔2〕計算校正項:〔3〕計算估計值a和b:〔1〕計算觀測平均值:二、一元線性回歸第十章一元回歸及簡單相關分析Ⅱ、一元直線回歸模型的建立:3、例題例題10-1土壤不同含鹽量時小麥收獲的葉干重如下表:試建立土壤含鹽量與小麥葉干重的直線回歸方程。解:分別求出SXY、SXX、SYY回歸系數b=11.16,表示當自變量每變動一個單位,因變量變動11.16個單位。

二、一元線性回歸第十章一元回歸及簡單相關分析Ⅲ、一元直線回歸模型的檢驗:(一)方差分析1、無重復時的方差分析

即:總平方和=剩余平方和(誤差平方和)+回歸平方和記為:,SYY具n-1自由度;其中:,SSe具n-2自由度;

,SSR具1自由度。

均方分別為:

假設F<F1,(n-2),α,那么接受H0:β=0;假設F>F1,(n-2),α,那么拒絕H0:β=0。F>F1,5,0.01=16.26,回歸極顯著。二、一元線性回歸第十章一元回歸及簡單相關分析2、有重復時的方差分析

Ⅲ、一元直線回歸模型的檢驗:(一)方差分析如果對于同一個自變量,因變量重復觀測兩次以上,此時剩余平方和分解為純實驗誤差平方和〔pureexperimentalerrorsumofsquares〕和失擬平方和〔lackoffitsumofsquares〕〔模型選擇不當造成的〕,總校正平方和做如下分解:即:

總平方和=回歸平方和+失擬平方和+純實驗誤差平方和

記為:

;SYY具mn-1自由度;

;SSR具1自由度;

;SSpe具mn-n自由度;

;SSLOF具n-2自由度。

均方分別為:

第一步:檢驗選擇模型的適宜性

若F<F(n-2),(mn-n),α,則模型選擇正確;若F>F(n-2),(mn-n),α,則模型選擇不當。當差異不顯著(即模型選擇正確)時,進行下一步檢驗。

第二步:檢驗回歸關系的顯著性

此時,失擬平方和基本上是由實驗誤差造成的。將失擬平方和和純誤差平方和合并,相應自由度合并(df=mn-2),以合并后的均方對回歸均方進行顯著性檢驗。

若F<F1,(mn-2),α,則接受H0:β=0;若F>F1,(mn-2),α,則拒絕H0:β=0。二、一元線性回歸第十章一元回歸及簡單相關分析Ⅲ、一元直線回歸模型的檢驗:(一)方差分析2、有重復時的方差分析

例題10-7土壤不同含鹽量時有重復實驗中小麥收獲的葉干重如下表:試對該土壤含鹽量與小麥葉干重的直線回歸方程的顯著性進行檢驗。解:得到回歸方程

差異不顯著,說明模型選擇正確。注意:對于小樣本(n≤30),F≤1.5肯定不顯著;

對于大樣本(n>30),F≤1.0肯定不顯著。

F>F1,12,0.01=9.33,回歸關系極顯著。

二、一元線性回歸第十章一元回歸及簡單相關分析Ⅲ、一元直線回歸模型的檢驗:(二)回歸系數t-檢驗一元線性回歸模型的實測值可表示為,因無法獲得α和β,故實測值表述為。二、一元線性回歸第十章一元回歸及簡單相關分析Ⅳ、一元直線回歸模型的檢驗:(3)點估計與區間估計1、對α和β的估計

二、一元線性回歸第十章一元回歸及簡單相關分析Ⅳ、一元直線回歸模型的檢驗:(3)點估計與區間估計2、對回歸線和對的估計

總體平均數觀測值個體—樣本例題:在例題10-1中,請估計土壤含鹽量為1.6g·kg-1時小麥葉干重為多少mg·dm-2〔取0.95置信概率〕?張老師2006年在土壤含鹽量為1.6g·kg-1的試驗地中進行小麥實驗,葉干重為多少mg·dm-2〔取0.95置信概率〕?解:分析——第一問為求總體平均值的置信區間;第二問為求單個觀測值——樣本的置信區間。三、一元非線性回歸第十章一元回歸及簡單相關分析多項式回歸兩變量間的數據散點圖無法確定函數關系時,用多項式回歸。一般形式為:

例題10-13

假設有一組數據,如下表,

試建立回歸方程并做顯著性檢驗。解:在Excel中,分別擬合多項式回歸方程,并做顯著性檢驗。結果如下圖。四、相關第十章一元回歸及簡單相關分析1、相關系數概念及其計算相關系數〔correlationcoefficient〕是指由于回歸因素所引起的變差與總變差之比的平方根,它是衡量線性回歸好壞的一個標志。由回歸因素所引起的變差在總變差中的比率越大,回歸的成分就越大,這兩個變量間的相關就越密切。常用的相關系數有Pearson相關系數、Kendall’s相關系數和Spearman相關系數。如果不作特別說明,我們計算的都是Pearson相關系數。

樣本相關系數為:第十章一元回歸及簡單相關分析四、相關2、相關系數的檢驗

涉及一個概念——總體相關系數,即總體相關系數等于兩變量的協方差除以兩變量標準差的幾何平均數。

事實上,總體相關系數ρ很難計算,只能估計。

(1)r不經變換:當ρ=0時(待檢驗數據分布符合正態分布),可用t=b/sb來檢驗。檢驗統計量為:t0.01

例題10-14

在研究水稻籽粒蛋白質含量(%)時,采用兩種不同的測定方法:凱氏定氮法(KP法)和染料結合法(DBC法),結果如下表,問兩種測定方法對結果是否有顯著影響?解:H0:ρ=0

說明兩種方法測定結果是一致的。

(2)r經z變換:當ρ≠0時(待檢驗數據分布不符合正態分布),分3種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論