用Excel計算相關系數和進行回歸分析_第1頁
用Excel計算相關系數和進行回歸分析_第2頁
用Excel計算相關系數和進行回歸分析_第3頁
用Excel計算相關系數和進行回歸分析_第4頁
用Excel計算相關系數和進行回歸分析_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一節  回歸和相關的概念  前幾章的方法都只涉及一種變量,主要是比較它的各組值之間的差異。但生物學所涉及的問題是多種多樣的,對許多問題的研究需要考慮不只一個變量,例如生物的生長發育速度就與溫度,營養,濕度 等許多因素有關,我們常常需要研究類似的多個變量之間的關系。這種關系可分為兩大類,即相關關系與回歸關系。 相關關系 :兩變量 X , Y 均為隨機變量,任一變量的每一可能值都有另一變量的一個確定分布與之對應。 回歸關系 : X 是非隨機變量或隨機變量, Y 是隨機變量,對 X 的每一確定值 x i 都有 Y 的一個確定分布與之對應。 從上述定義可看出相關關系中的兩個變量地

2、位是對稱的,可以認為它們互為因果;而回歸關系中則不是這樣,我們常稱回歸關系中的 X 是自變量,而 Y 是因變量。即把 X 視為原因,而把 Y 視為結果。 這兩種關系盡管有意義上的不同,分析所用的數學概念與推導過程也有所不同,但如果我們使用共同的標準即使 y 的殘差平方和最小(最小二乘法,詳見下述),則不管是回歸關系還是相關關系都可以得到相同的參數估計式。因此本章將集中討論數學處理較簡單的回歸關系,且 X 限定為非隨機變量。從這些討論中所得到的參數估計式也可用于 X 為隨機變量的情況,但我們不再討論 X 為隨機變量時的證明與推導。 另外,回歸分析和相關分析的目的也有所不同。回歸分析研究的重點是建

3、立 X 與 Y 之間的數學關系式,這種關系式常常用于預測,即知道一個新的 X 取值,然后預測在此情況下的 Y 的取值;而相關分析的重點則放在研究 X 與 Y 兩個隨機變量之間的共同變化規律,例如當 X 增大時 Y 如何變化,以及這種共變關系的強弱。由于這種研究目的的不同,有時也會引起標準和方法上的不同,我們將在相關分析一節中作進一步介紹。 從兩個變量間相關(或回歸)的程度來看,可分為以下三種情況: ( 1 ) 完全相關 。此時一個變量的值確定后,另一個變量的值就可通過某種公式求出來;即一個變量的值可由另一個變量所完全決定。這種情況在生物學研究中是不太多見的。 ( 2 ) 不相關 。變量之間完全

4、沒有任何關系。此時知道一個變量的值不能提供有關另一個變量的任何信息。 ( 3 ) 統計相關 (不完全相關)。介于上述兩種情況之間。也就是說,知道一個變量的值通過某種公式就可以提供關于另一個變量一些信息,通常情況下是提供有關另一個變量的均值的信息。此時知道一個變量的取值并不能完全決定另一個變量的取值,但可或多或少地決定它的分布。這是科研中最常遇到的情況。本章討論主要針對這種情況進行。為簡化數學推導,本章中如無特別說明,一律假設 X 為非隨機變量,即 X 只是一般數字,并不包含有隨機誤差。但所得結果可以推廣到 X 為隨機變量的情況。 兩個變數資料的散點圖 將兩個變數的 n 對觀察值 ( x 1 ,

5、 y 1 ) 、 ( x 2 , y 2 ) 、 、 ( x n , y n ) 分別以坐標點 的形式標記于同一直角坐標平面上得到的圖,稱為散點圖 (scatter diagram) 。 第二節  直線回歸  前邊已經說過,回歸關系就是對每一個 X的取值x i ,都有Y的一個分布與之對應。在這種情況下,怎么建立X與Y的關系呢?一個比較直觀的想法就是建立X與Y的分布的參數間的關系,首先是與Y的均值的關系。這就是條件均值的概念,記為: 。它的意思是在X=x 1 的條件下,求Y的均值。更一般地,我們用 代表X取一切值時,Y的均值所構成的集合。所謂一元線性回歸,就是假定X與 之間的

6、關系是線性關系,而且滿足: ( 9.1 ) 此時進行回歸分析的目標就是給出參數 和的估計值。 例 9.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數據見表5.1。試計算日齡X與體重Y之間的回歸方程。 表 9.1 大白鼠6-18日齡的體重 序號 1 2 3 4 5 日齡 x i 6 9 12 15 18 體重 y i 11 16.5 22 26 29 首先,我們可以把數對( x i , y i )標在 X-Y 坐標系中,這種圖稱為散點圖。它的優點是可以使我們對 X 、 Y 之間的關系有一個直觀的、整體上的印象,如它們是否有某種規律性,是接近一條直線還是一條曲線,等等。我們還可以畫

7、很多條接近這些點的直線或曲線,但這些線中的哪一條可以最好地代表 X, Y 之間的關系,就不是憑直觀印象可以做出判斷的了。例如對例 9.1 ,我們可畫出如下的散點圖: 圖 9.1 大白鼠日齡 體重關系圖 圖中的點看來是呈直線關系,但那條直線是否最好地反映了這種關系呢?或者換一種說法:該如何找到最好地反映這種關系的直線呢?這就是我們以下要討論的問題。 一元正態線性回歸統計模型 線性回歸意味著條件平均數與 X 之間的關系是線性函數: ( 9.1 ) 對于每個 Y 的觀察值 y i 來說,由于條件均值由 (9.1) 式決定,觀察值就應該是在條件均值的基礎上再加上一個隨機誤差,即: ( 9.2 ) 其中

8、 。正態線性回歸中 “ 正態 ” 的意思是隨機誤差服從正態分布。 (9.2) 式就是一元正態線性回歸的統計模型。 9.2.2 參數 和的估計 統計模型中的和是總體參數,一般是不知道的。由于只能得到有限的觀察數據,我們無法算出準確的與的值,只能求出它們的估計值 a和b,并得到y i 的估計值為: (9.3) 那么,什么樣的 a和b是和最好的估計呢?換句話說,選取什么樣的a和b可以最好地反映X和Y之間的關系呢?一個合理的想法是使殘差 最小。為了避免使正負e i 互相抵消,同時又便于數學處理,我們定義使殘差平方和 達到最小的直線為回歸線,即令: ,且 得: 整理后,得 (9.4) 上式稱為正規方程。

9、解此方程,得: 這種方法稱為最小二乘法,它也適用于曲線回歸,只要將線性模型( 9.3)式換為非線性模型即可。但要注意非線性模型的正規方程一般比較復雜,有些情況下甚至沒有解析解。另一方面,不管X與Y間的真實關系是什么樣的,使用線性模型的最小二乘法的解總是存在的。因此正確選擇模型很重要,而且用最小二乘法得出的結果一般應經過檢驗。 記 ,稱為X的校正平方和; ,稱為Y的總校正平方和; ,稱為校正交叉乘積和, 則: (9.5) 在實際計算時,可采用以下公式: 現在回到例 9.1 。 例 9.1 對大白鼠從出生第6天起,每三天稱一次體重,直到第18天。數據見表9.1。試計算日齡X與體重Y之間的回歸方程。

10、 表 9.1 大白鼠6-18日齡的體重 序號 1 2 3 4 5 日齡 x i 6 9 12 15 18 體重 y i 11 16.5 22 26 29 解:把數據代入上述公式 , 得: 即:所求的回歸方程為: y = 2.6996 + 1.5167 x 帶有統計功能的計算器常常也可以做一元線性回歸,對于這樣的計算器,只需把數據依次輸入,然后按一下鍵就可得到上述結果。 9.2.3 直線回歸的假設測驗 在介紹最小二乘法時我們曾提到,不管實際上 X 與 Y 之間有沒有線性關系,用這種方法總是可以得到解的。因此我們必須有一種方法可以檢驗得到的結果是不是反映了 X 和 Y 之間的真實關系。為此,我們需

11、要研究 b 與 a 的期望與方差。注意 原式 = 各 y i 互相獨立,且D(y i )= 2 ;各x i 為常數; 為估計 2 ,令: ,稱為殘差或剩余。則殘差平方和為: 由于 ( 交叉項期望為 0 ) 且 D(S xy ) = S xx s 2 , E(S xy ) = b S xx , (已證) 用 MS e (剩余均方)代替 s 2 ,可得 b 與 a 的樣本方差: 由于 MS e 的自由度為 n-2 ,因此上述兩方差的自由度也均為 n-2 。有了 a 和 b 的方差與均值,我們就可構造統計量對它們進行檢驗: H 0 : b = 0 H A : b 0 (雙側檢驗) 或: H A :

12、b > 0 (或 b < 0 ) (單側檢驗) 統計量: ( 9.6 ) 當 H 0 成立時, t b t(n-2) ,可查相應分位數表進行檢驗。 H 0 : a = 0 H A : a 0 (雙側檢驗) 或: H A : a > 0 (或 a < 0 ) (單側檢驗) 統計量: ( 9.7 ) 當 H 0 成立時, t a t(n-2) ,可查相應分位數表進行檢驗。 在對一個回歸方程的統計檢驗中,我們更關心的是 b 是否為 0 ,而不是 a 是否為 0 。這是因為若 b = 0 ,則線性模型變為 Y = a + e ,與 X 無關;這意味著 X 與 Y 間根本沒有線性

13、關系。反之, a 是否為 0 并不影響 X 與 Y 的線性關系。因此我們常常只對 b 作統計檢驗。 例 9.2 對例 9.1 中的 b 作檢驗: H 0 : b =0 解: 查表, t 0.995 (3) = 5.841 < t , 差異極顯著,應拒絕 H 0 ,即 b 1 0 ,或 X 與 Y 有著極顯著的線性關系。 9.2.4直線回歸的方差分析對回歸方程的統計檢驗除可用上述 t 檢驗外,還有一些其他方法。這里我們再介紹一種方差分析的方法,它的基本思想仍是對平方和的分解。 1  無重復的情況。 y 的總校正平方和可進行如下的分解: 即: Syy = SSe + SSR y 的

14、總校正平方和殘差平方和回歸平方和 自由度: n-1n-21 這樣就把 y 的總校正平方和分解成了殘差平方和與回歸平方和。前已證明, MS e 可作為總體方差 s 2 的估計量,而 MS R 可作為回歸效果好壞的評價。如果 MS R 僅由隨機誤差造成的話,說明回歸失敗, X 和 Y 沒有線性關系;否則它應顯著偏大。因此可用統計量 ( 9.8 ) 對 H 0 : b = 0 進行檢驗。若 F < F a (1, n-2) ,則接受 H 0 ,否則拒絕。 現在我們來證明這里的 F 檢驗與前述的 t 檢驗是一致的: 前已證明: SS e = S yy ? b × S xy , SS R

15、 = S yy ? SS e = b × S xy , 例 9.4 對例 9.1 作方差分析 解:由以前計算結果: S yy = 210.2 , df = 4; SS e = 3.1704, df = 3, SS R = 210.2 ?3.1704 = 207.03, df = 1 查表得 F 0.95 (1, 3) = 10.13, F 0.99 (1, 3) = 34.12 F > F 0.99 (1, 3) ,拒絕 H 0 ,差異極顯著。即應認為回歸方程有效。 2.有重復的情況: 設在每一個 x i 取值上對 Y 作了 m 次觀察,結果記為 y i1 , y i2 , y

16、 im , 則線性統計模型變為: , i = 1, 2, n, j = 1, 2, m 估計值仍為: 現在 y的總校正平方和可分解為: S yy = SS R + SS LOF + SS pe 其中 SS LOF 稱為失擬平方和, SS pe 為純誤差平方和,它們的表達式和自由度分別為: 同學們可試證明上述分解中的三個交叉項均為 0 。 統計檢驗步驟為: I. 令 ,它服從 F(n-2, mn-n) ( 9.9 ) 若 F 檢驗差異顯著,則可能的原因有: ( 1 )除 X 以外還有其他變量影響 Y 的取值,而統計時沒有加以考慮; ( 2 )模型不當,即 X 與 Y 之間不是線性關系; 此時無必

17、要再進一步對 MS R 作檢驗,而應想辦法找出原因,并把它消除后重作回歸。 若差異不顯著,則把 MS LOF 和 MS pe 合并,再對 MS R 作檢驗: II. ,它服從 F(1, mn-2) ( 9.10 ) 若差異顯著,說明回歸是成功的, X, Y 間確有線性關系;若差異仍不顯著,則回歸失敗,其可能的原因為: ( 1 ) X , Y 無線性關系; ( 2 )誤差過大,掩蓋了 X, Y 間的線性關系。 如有必要,可設法減小實驗誤差,或增加重復數重做實驗后再重新回歸。 9.2.5直線回歸的區間估計 1 和的區間估計 我們已經證明 a 和 b 是 和 的點估計,并求出了它們的方差。因此給出置

18、信區間就很容易了: 的 95%置信區間為: (9.11) 同理 a 的 95% 置信區間為: (9.12) 這與以前假設檢驗中的置信區間求法完全一樣。若置信水平為 99% ,把分位數相應換為 t 0.995 (n-2) 即可。 例 9.5 對例 9.1 中的 a 和 b 給出 95% 置信區間。 解:從前邊的計算可知: a = 2.6996, b = 1.5167, S xx = 90, MS e = 1.0568, n = 5, 查表,得 t 0.975 (3) = 3.182 a 的 95% 置信區間為: 2.6996 ± 4.3887, 即( -1.6891, 7.0883 )

19、 b 的 95% 置信區間為: 1.5167 ± 0.3448, 即( 1.1719, 1.8615 ) 2. 對條件均值 m Y? X 的估計。 的點估計: 證明: 區間估計:首先需求出 的方差。 用 MS e 代替 s 2 ,可得 的 1 ? a 置信區間為: ( 9.13 ) 注意上述置信區間的寬度與 有關,當 時,其寬度最小,偏離 后,逐漸加大。 3. 對一次觀察值 y 0 的估計 y 0 的點估計: 證明: 區間估計: 一般情況下置信區間是以隨機變量的期望為中點,此時只要求方差就可以了,因為方差就是衡量隨機變量以數學期望為中心的離散程度的統計量。而現在是以條件均值 的估計值

20、,即另一個隨機變量 為中點,因此應求這兩個隨機變量差值的方差。由于下一次觀察值 y 0 和以前所有的觀察值 y i 都是互相獨立的,而估計值 是從以前的觀察值 y i 計算出來的,因此 與 y 0 獨立,從而有: 由于 y 0 和 均為正態分布,它們的差也為正態分布。用 代替 后,為 t 分布,即: 在 x = x 0 處 y 0 的 1- a 置信區間為: (9.14) 顯然 y 0 的置信區間寬度也與 x 0 有關, 時最小,偏離 時增大。 y 0 的置信區間比 的大一點,這是因為 y 0 自己也有一個隨機誤差 e 。 例 9.6 江蘇武進縣測定 1959-1964 年間 3 月下旬至 4

21、 月中旬平均溫度累積值 x 和一代三化螟蛾盛發期 y 的關系如下表 ( 盛發期以 5 月 10 日為起算日 ) :試作回歸分析。 表 9.2 平均溫度累積值與一代三化螟盛發期 年代 1956 1957 1958 1959 1960 1961 1962 1963 1964 累積溫 x 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 盛發期 y 12 16 9 2 7 3 13 9 1 解:由原始數據算得: S xx = 144.6356, S yy = 249.5556, S xy = 159.0444, b 1.0996, SS R = bS xy =

22、 174.8886 查表,得: F 0.95 (1, 7) = 5.591, F 0.99 (1, 7) = 12.25, F > F 0.99 (1, 7), 拒絕 H 0 ,差異極顯著。即 X , Y 有極顯著線性關系。 為把上述回歸結果用于預報,可給出觀察值 y 0 的 95% 置信區間: 查表,得 t 0.975 (7) = 2.365, 把數據代入上式,得: 條件均值 的 95% 置信區間公式為: 代入數據,得: 把不同的 x 0 取值代入上述公式,可得置信區間的數據及圖形如下: 表 9.3 一代三化螟盛發期置信區間 x 0 y 0 的 95% 置信區間 y 0 的 95% 置

23、信區間 下限 上限 下限 上限 30 15.6 10.3 20.8 6.2 24.9 32 13.4 9.2 17.5 4.6 22.1 34 11.2 7.9 14.4 2.8 19.5 36 9.0 6.3 11.6 0.8 17.1 38 6.8 4.1 9.4 -1.4 14.9 40 4.6 1.4 7.8 -3.8 12.9 42 2.4 -1.7 6.4 -6.4 11.1 44 0.2 -5.0 5.3 -9.1 9.4 46 -2.0 -8.3 4.2 -12.0 7.9 圖 9.2 一代三化螟盛發期置信區間 回歸分析的目的常常是為了預報,也就是說下一次我們知道了 x 0 的

24、取值后,在觀察前就對 y 0 的取值作出估計。例如表 9.3 中的數據就是為了預報用的,下一年度如果我們知道了 3 月下旬至 4 月中旬的平均溫度累積值,就可以估計出一代三化螟蛾盛發期是 5 月的什么時候。要特別注意的一點是預報范圍只能是我們研究過的自變量變化范圍,例如在上例中,當積溫值是在 32 到 44 的范圍內時,使用這一預報公式比較有把握, 30 和 46 使用已有點勉強,再大或小就不能用了。這是因為一般來說直線關系只是局部的近似,在更大的范圍內,變量間常常呈現一種非線性的關系。因此若貿然把局部研究中發現的線性關系推廣到更大的范圍,常常是要犯嚴重錯誤的。同時從置信區間的寬度也可看出,即

25、使是在研究的范圍內,也是越接近所研究區間的中點( )預報越準確。 第三節  直線相關  相關系數 設有一 X 、 Y 均為隨機變量的雙變數總體,具有 N 對 ( X , Y ) 。若在標有這 N 個 ( X , Y ) 坐標點的直角坐標上移動坐標軸,將 X 軸和 Y 軸分別平移 到 X 和 Y 上,則各點位置不變,而所取坐標變為 ( X - X , Y- Y ) 。 上述三圖充分說明的值可用來度量兩個變數直線相關程度和性質。但是, X 和 Y 的變異程度、所取單位及 N 的大小都會影響為了具有可比性,需要將離均差轉化為標準化離均差,再以 N 除之,從而得到雙變數總體的相關系

26、數為: 從樣本的角度分析, y 的平方和 SS y 是由離回歸平方和及回歸平方和構成的,后者是由 X 的不同而引起。顯然,若坐標點愈靠近回歸線, 則U 對SS y 的比率愈大,直線相關就愈密切,故樣本的相關系數 r 為: 嚴格地說,只有當 X , Y 均為隨機變量時才能定義相關系數。這樣一來,在本章的大多數情況下,由于我們假設 X 為非隨機變量,相關系數根本就無法定義。但一方面不管 X 是不是隨機變量,根據式樣本相關系數總是可以計算的;另一方面后邊關于對樣本相關系數進行統計檢驗的推導中,也并沒有受到 X 必須為隨機變量的限制,因此在回歸分析中我們就借用了相關系數的名稱和公式,而不再去區分 X

27、是否為隨機變量。這一點在使用中是很方便的。 根據以前的推導結果,有: 因此 , 。 當 時,從上式可看出 SS e = 0 ,即用 可以準確預測 y 值。此時若 X 不是隨機變量,則 Y 也不是隨機變量了。這種情況在生物學研究中是不多見的。 當 r = 0 時, SS e = S yy ,回歸一點作用也沒有,即用 X 的線性函數完全不能預測 Y 的變化。但這時 X 與 Y 間還可能存在著非線性的關系。 當 時,情況介于上述二者之間隔。 X 的線性函數對預測 Y 的變化有一定作用,但不能準確預測,這說明 Y 還受其他一些因素,包括隨機誤差的影響。 綜上所述, r 可以作為 X , Y 間線性關系

28、強弱的一種指標。它的優點是非常直觀,接近于 1 就是線性關系強,接近于 0 就是線性關系弱;而其他統計量都需要查表后才知檢驗結果。 由于 r 是線性關系強弱的指標,我們當然希望能用它來進行統計檢驗。在一般情況下 r 不是正態分布,直接檢驗有困難。但當總體相關系數 = 0 時, r 的分布近似于正態分布,此時用 MSe 代替 ,就可以對 作 t 檢驗。這種檢驗與對回歸系數 b 的檢驗: 是等價的。可證明如下: b 的 t 檢驗統計量為: t = b/S b 。 b=S xy /S xx , 代入 t 的表達式,得: 。 因此我們可用上述統計量對 作統計檢驗。 為使用方便,已根據上述公式編制專門的

29、相關系數檢驗表,可根據剩余自由度及自變量個數直接查出 r 的臨界值。 若必須對 0 的情況作統計檢驗,可采用反雙曲正切變換: 當 n 充分大時,可證明 Z 漸近正態分布 N , 其中 。利用統計量 Z 可對 等進行檢驗。但這一檢驗方法用得很少。 例 9.7 求出例 9.1 回歸系數 r ,并作統計檢驗。 解:利用以前的計算結果,可得: 這里求得的 Z 值與例 9.2 中求得的 t 值是相同的,它們本來就是同一個統計量。 查表, t 0.995 (3) = 5.841 < t, 差異極顯著,即 X 與 Y 有極顯著的線性關系。 若直接查相關系數檢驗表,可得:剩余自由度為 3 ,獨立自變量為

30、 1 , =0.05 的 r 臨界值為 0.878, =0.01 的臨界值為 0.959, 差異仍為極顯著。 相關系數與回歸系數間的關系 在 X 和 Y 均為隨機變量的情況下,我們通常可以 X 為自變量, Y 為因變量建立方程,也可反過來,以 Y 為自變量, X 為因變量建立方程。此時它們的地位是對稱的。 取 X 為自變量, Y 為因變量,回歸系 b 為: 取 Y 為自變量, X 為因變量,回歸系數 b' 為: 即:相關系數實際是兩個回歸系數的幾何平均值。這正反映了相關與回歸的不同:相關是雙向的關系,而回歸是單向的。 現在我們已介紹了三種對回歸方程作統計檢驗的方法:對回歸系數 b 作 t 檢驗,方差方析,對相關系數 r 作檢驗。對一元線性回歸來說,它們的基本公式其實是等價的,因此結果也是一致的。但它們也各有自己的優缺點:對 b 的 t 檢驗可給出置信區間;方差分析在有重復的情況下可分解出純誤差平方和,從而可得到進一步的信息;相關系數則既直觀,又方便(有專門表格可查),因此使用廣泛。 最后要提請注意的一點是,不論采用什么檢驗方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論