直線回歸和相關.ppt_第1頁
直線回歸和相關.ppt_第2頁
直線回歸和相關.ppt_第3頁
直線回歸和相關.ppt_第4頁
直線回歸和相關.ppt_第5頁
已閱讀5頁,還剩76頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章直線回歸和相關 第一節回歸和相關的概念第二節直線回歸第三節直線相關第四節直線回歸與相關的內在關系和應用要點 引言前幾章多為研究處理效應的差異性 著在生產和科研中是常見的問題 而生產和科研另一重要的問題則是因素間或因素與性狀間或變量間相互影響的關系或規律 這就是這一章研究的內容 例如 研究溫度高低和作物發育進度快慢的關系 就有溫度和發育進度兩個變數 研究每畝穗數 每穗粒數和每畝產量的關系 就有穗數 粒數和產量三個變數 第一節回歸和相關的概念 1 函數關系與統計關系2 自變數與依變數3 回歸分析和相關分析4 兩個變數資料的散點圖 函數關系有精確的數學表達式 確定性的關系 直線回歸分析一元回歸分析變量間的關系因果關系曲線回歸分析 回歸分析 多元回歸分析多元線性回歸分析統計關系多元非線性回歸分析 非確定性的關系 簡單相關分析 直線相關分析相關關系復相關分析 相關分析 多元相關分析偏相關分析 1 函數關系是一種確定性的關系 即一個變量取一定值 另一個變量比有確定的值與之相對應 例如圓面積與半徑的關系為 其不包含誤差的干擾 2 統計關系是一種非確定性的關系 即一個變量取一可能值 另一個變量雖然沒有確定的值與之相對應 但是有一條件分布與之相對應 例如 施肥量與作物的產量的關系 兩類變數受誤差的干擾表現為統計關系 一 函數關系與統計關系 因果關系 兩個變數間的關系若具有原因和反應 結果 的性質 則稱原因變數為自變數 反應變數為依變數 二 自變數與依變數 1 相關關系 模型 設有兩個隨機變量X和Y 對于任一隨機變量 X 的每一個可能值 另一個隨機變量 Y 都有一條件分布與之相對應 2 相關分析 計算相關系數為基礎的統計分析方法 計算表示Y和X相關密切程度的統計數 并測驗其顯著性 三 回歸分析和相關分析 3 這個統計數在兩個變數為直線相關時稱為相關系數 即表示變量間相關性質與程度的統計數 correlationcoefficient 記為r 在多元相關時稱為復相關系數 multiplecorrelation 記作Ry 12 m 在兩個變數曲線相關時稱為相關指數 correlationindex 記作R 為Y依X而變化的回歸方程 regressionequationofYonX 4 回歸關系 模型 設有兩個變量X和Y 對于固定變量 X 的每一個可能值 另一個隨機變量 Y 都有一條件分布與之相對應 5 回歸分析 計算回歸方程為基礎的統計分析方法 6 相關分析的主要任務 1 計算表示變量間相關性質與程度的統計數 相關系數 2 對相關系數進行顯著性測驗 7 回歸分析的主要任務 1 建立y依x而變化的回歸方程 它是對應每一個x的隨機變量Y分布均值 的點估計值 2 2 計算回歸估計的標準誤差 它是對y分布變異度 的度量值 并提供回歸關系顯著性測驗的依據 一般規則 當兩個變數中Y含有試驗誤差而X不含試驗誤差時著重進行回歸分析 而當Y和X均含有試驗誤差時則著重去進行相關分析 四 兩個變數資料的散點圖1 對具有統計關系的兩個變數的資料進行初步考察的簡便而有效的方法 是將這兩個變數的n對觀察值 x1 y1 x2 y2 xn yn 分別以坐標點的形式標記于同一直角坐標平面上 獲得散點圖 scatterdiagram 2 根據散點圖可初步判定雙變數X和Y間的關系 包括 X和Y相關的性質 正或負 和密切程度 X和Y的關系是直線型的還是非直線型的 是否有一些特殊的點表示著其他因素的干擾等 3 例如圖9 1是水稻方面的3幅散點圖 圖9 1A是單株的生物產量 X 和稻谷產量 Y 圖9 1B是每平方米土地上的總穎花數 X 和結實率 Y 圖9 1C是最高葉面積指數 X 和每畝稻谷產量 Y 從中可以看出 圖9 1A和9 1B都是直線型的 但方向 相反 前者Y隨X的增大而增大 表示兩個變數的關系是正的 后者Y隨X的增大而減小 表示關系是負的 圖9 1A的各個點幾乎都落在一直線上 圖9 1B則較為分散 因此 圖9 1A中X和Y相關的密切程度必高于圖9 1B 圖9 1C中X和Y的關系是非直線型的 大約在x 6 7 時 Y隨X的增大而增大 而當x 6 7 時 Y隨X的增大而減小 x 生物產量 g 水稻單株生物產量與稻谷產量的散點圖 x 每m2穎花數 萬 水稻每m2穎花數和結實率的散點圖 x 最高葉面積指數水稻最高葉面積指數和畝產量的散點圖 五 相關回歸分析時需注意的問題 1 變量間可能存在某種聯系 不能把毫無任何關系的變量放在一起進行分析 2 成對或成組對數應盡可能多 n 43 一般先進行相關分析 相關顯著后再進行回歸分析 因為相關模型中含有回歸的信息 回歸模型中也含有相關的信息 第二節直線回歸 一 直線回歸方程二 直線回歸的假設測驗 一 直線回歸方程 一 直線回歸方程式 9 1 a回歸截距 regressionintercept a是x 0時Y的值 即回歸直線在y軸上的截距 b回歸系數 regressioncoefficient b是x每增加一個單位數時 Y平均地將要增加 b 0時 或減少 b 0時 的單位數 建立回歸方程或求a和b的原理是 最小二乘法或最小平方法原理 即使各個實際值y與回歸直線對應值之差平方之和最小 其幾何圖形上的含義 各個實際觀測點與回歸直線上點之距離和為最小 即誤差為最小 時 分別對a和b求偏導數并令其為0 可得正規方程組 normalequations 得 9 2 9 3 9 4 將 9 2 代入 9 1 可得 y a 0 b0 b 0 a0 x直線回歸方程的圖象由 9 4 可看到 當x以離均差 x 為單位時 回歸直線的位置僅決定于和b 當將坐標軸平移到以 為原點時 回歸直線的走向僅決定于b 所以一般又稱b為回歸斜率 regressionslope 二 直線回歸方程的計算 例9 1 一些夏季害蟲盛發期的早遲和春季溫度高低有關 江蘇武進連續9年測定3月下旬至4月中旬旬平均溫度累積值 x 旬 度 和水稻一代三化螟盛發期 y 以5月10日為0 的關系 得結果于表9 1 試計算其直線回歸方程 首先由表9 1算得回歸分析所必須的6個一級數據 即由觀察值直接算得的數據 表9 1累積溫和一代三化螟盛發期的關系 n 9 35 5 34 1 44 2 333 7 35 52 34 12 44 22 12517 49 12 16 1 70 122 162 1 2 794 35 5 12 34 1 16 44 2 1 2436 4 然后 由一級數據算得5個二級數據 SSx 12517 49 333 7 2 9 144 6356 794 70 2 9 249 5556 2436 4 333 7 70 9 159 0444 333 7 9 37 0778 70 9 7 7778 SSy SP 因而有 b 159 0444 144 6356 1 0996 天 旬 度 a 7 7778 1 0996 37 0778 48 5485 天 故得表9 1資料的回歸方程為 上述方程中回歸系數和回歸截距的意義為 回歸系數b為當3月下旬至4月中旬的積溫 x 每提高1旬 度時 一代三化螟的盛發期平均將提早1 1天 回歸截距a為若積溫為0 則一代三化螟的盛發期將在6月27 28日 x 0時 Y 48 5 因y是以5月10日為0 故48 5為6月27 28日 由于x變數的實測區間為 31 7 44 2 當x 31 7或 44 2時 y的變化是否還符合 48 5 1 1x的規律 觀察數據中未曾得到任何信息 所以本例的回歸截距不具有實際的生物學意義 48 5485 1 0996x 所以 在應用 48 5 1 1x于預測時 需限定x的區間為 31 7 44 2 如要在x 31 7或 44 2的區間外延 則必須有新的依據 三 直線回歸方程的圖示直線回歸圖包括回歸直線的圖象和散點圖 它可以醒目地表示x和y的數量關系 方法 制作直線回歸圖時 首先以x為橫坐標 以y為縱坐標構建直角坐標系 縱 橫坐標皆需標明名稱和單位 然后取x坐標上的一個小值x1代入回歸方程得 取一個大值x2代入回歸方程得 連接坐標點 x1 和 x2 即成一條回歸直線 如例9 1資料 以x1 31 7代入回歸方程得 13 69 以x2 44 2代入回歸方程得 0 05 在圖9 3上確定 31 7 13 69 和 44 2 0 05 這兩個點 再連接之 即為 48 5485 1 0996x的直線圖象 注意 此直線必通過點 它可作為制圖是否正確的核對 最后 將實測的各對 xi yi 數值也用坐標點標于圖9 3上 x 3月下旬至4月中旬旬平均溫度累積值圖旬平均溫度累積值和一代三化螟盛發期的關系 圖9 3的回歸直線是9個觀察坐標點的代表 它不僅表示了例9 1資料的基本趨勢 也便于預測 如某年3月下旬至4月中旬的積溫為40旬 度 則在圖9 3上可查到一代三化螟盛發期的點估計值在5月14 15日 這和將x 40代入原方程得到 48 5485 1 0996 40 4 6是一致的 因為回歸直線是綜合9年結果而得出的一般趨勢 所以其代表性比任何一個實際的坐標點都好 當然 這種估計仍然有隨機誤差 下文再作討論 四 直線回歸的估計標準誤Q就是誤差的一種度量 稱為離回歸平方和 sumofsquaresduetodeviationfromregression 或剩余平方和 建立回歸方程時用了a和b兩個統計數 故Q的自由度 得 SSy b SP SSy b2 SSx y2 a y b xy 9 5 9 6A 9 6B 9 6C 9 6D 例9 2試計算由表9 1資料獲得的回歸方程的估計標準誤 為說明計算過程 這里先用繁法 將表9 1的x和y值抄于表9 2的第一和第二列 然后將第一列中的各x值代入回歸方程 48 5485 1 0996x 算得對應于各x的估計值 第三列 再算出的值于第四列 并得 注意 如果沒有計算誤差 y 一定等于0 最后將各的值記于第五列 并得Q 74 6670 因此 據 9 5 有 表9 2表9 1資料求 y 的繁算程序 以上計算較為煩瑣 如改用 9 6 則由例9 1算好的有關數據可直接得到 據9 6A 249 5556 1 0996 159 0444 74 6704 據9 6B 249 5556 1 09962 144 6356 74 6738 據9 6C 794 48 5485 70 1 0996 2436 4 74 6704 據9 6D 上述計算以 9 6A 算得的Q值較為準確 而由 9 6B 9 6C 和 9 6D 算得的Q值都有少許計算誤差 這是由于后三式中包含有三級數據b和a 所以一般由 9 6A 計算Q 上述計算表明 當用回歸方程 48 5485 1 0996x 由3月下旬至4月中旬的積溫預測一代三化螟盛發期時 有一個3 266天的估計標準誤 它的統計意義是 在 3 266天范圍內約有68 27 個觀察點 在 6 532天范圍內約有95 45 個觀察點等 五 直線回歸的數學模型和基本假定 不講 直線回歸模型中 Y總體的每一個值由以下三部分組成 回歸截距 回歸系數 Y變數的隨機誤差 總體直線回歸的數學模型 N 0 相應的樣本線性組成為 9 7 9 8 回歸分析時的假定 1 Y變數是隨機變數 而X變數則是沒有誤差的固定變數 至少和Y變數比較起來X的誤差小到可以忽略 2 在任一X上都存在著一個Y總體 可稱為條件總體 它是作正態分布的 其平均數是X的線性函數 9 9 的樣本估計值 與X的關系就是線性回歸方程 9 1 3 所有的Y總體都具有共同的方差 而直線回歸總體具有 試驗所得的一組觀察值 xi yi 只是中的一個隨機樣本 4 隨機誤差相互獨立 并作正態分布 具有 二 直線回歸的假設 顯著性 測驗和區間估計 一 直線回歸的假設 顯著性 測驗1 回歸關系的假設 顯著性 測驗 直線回歸的假設 顯著性 測驗的思想 任何兩變數資料 即使其總體沒有回歸關系或雖有回歸關系但是不是線性的 只要有原始數據 利用求回歸系數及回歸截距的公式 都可以算得一個線性回歸方程 所以要測驗樣本回歸系數b來自無線性回歸關系總體的概率 只有當這種概率很小很小 P 0 05或P 0 01 才可以冒一定風險 推斷樣本來自有線性關系的總體 即它們的總體線性回歸顯著或及顯著 1 t測驗 直接測驗回歸系數b來自無線性回歸關系的總體的概率 H0 0 對HA 9 10 9 11 遵循的t分布 故由t值即可知道樣本回歸系數b來自 0總體的概率大小 總體線性回歸不顯著 總體線性回歸顯著 例9 3 試測驗例9 1資料回歸關系的顯著性 在例9 1和9 2已算得b 1 0996 SSx 144 6356 sy x 3 266 1 提出統計假設 H0 0 對HA 3 計算概率 計算b來自 0的總體的概率 2 規定顯著水平為0 05或0 01 查附表4 t0 05 7 2 36 t0 01 7 3 50 現實得 t 4 05 表明在 0的總體中因抽樣誤差而獲得現有樣本的概率小于0 01 所以應否定H0 0 接受HA 0 即認為積溫和一代三化螟盛發期是有真實直線回歸關系的 或者說此b 1 0996是極顯著的 4 推斷 2 F測驗 當僅以表示y資料時 不考慮x的影響 y變數具有平方和SSy和自由度當以表示y資料時 考慮x的影響 則SSy將分解成兩個部分 即 F測驗的實質 測驗在Y的總變異中因X引起的回歸變異能否顯著大于誤差引起的離回歸變異 將記作U回歸和離回歸的方差比遵循的F分布 因為得 由此可檢驗H0 總體線性回歸方差與誤差方差同質 HA 總體線性回歸方差顯著大于誤差方差 即總體線性回歸顯著 例9 4 試用F測驗法檢測例9 1資料回歸關系的顯著性 在例9 1和9 2已算得SSy 249 5556 Q 74 6670 故U 249 5556 74 6670 174 8886 并有方差分析列于表9 3 表9 3例9 1資料回歸關系的方差分析 在表9 3 得到F 16 40 F0 01 所以同樣表明積溫和一代三化螟盛發期是有真實直線回歸關系的 即HA 0 準確地說 在 0的總體中獲得現有回歸樣本的概率小于0 01 上述t和F測驗 在任何回歸樣本上的結果都完全一致 因為在同一概率值下 的一尾F值正好是的兩尾t值的平方即F t2 如本例 F 16 40 t 4 05 4 05 2 16 40 事實上 由 9 13 可作恒等變換 所以 對直線回歸作假設測驗 只需選擇上述測驗方法之一即可 二 直線回歸的區間估計 不講 1 直線回歸的抽樣誤差在直線回歸總體中抽取若干個樣本時 由于 各樣本的a b值都有誤差 因此 由 a bx給出的點估計的精確性 決定于和a b的誤差大小 比較科學的方法應是考慮到誤差的大小和坐標點的離散程度 給出一個區間估計 即給出對其總體的 等的置信區間 2 回歸截距的置信區間由 9 2 樣本回歸截距a 而和b的誤差方差分別為 故根據誤差合成原理 a的標準誤為 由是遵循的t分布的 總體回歸截距有95 可靠度的置信區間為 L1 a t0 05 L2 a t0 05 9 17 9 18 3 回歸系數的置信區間由 9 11 可推得總體回歸系數的95 可靠度的置信區間為 L1 b t0 05 L2 b t0 05 4 條件總體平均數的置信區間由 故的標準誤為 條件總體平均數的95 置信區間為 L1 t0 05 L2 t0 05 9 21 9 20 9 19 5 條件總體觀察值Y的預測區間將 9 4 代入 9 8 yi ei 9 22 保證概率為0 95的Y或y的預測區間為 L1 t0 05 L2 t0 05 9 23 6 置信區間和預測區間的圖示首先取若干個等距的x值 x取值愈密 作圖愈準確 算得與其相應的 和 的值 然后再由和算得各x上的L1和L2 并標于圖上 最后將各個L1和L2分別連成曲線即可 例9 10 試制作例9 1資料的y估計值包括和y在內有95 可靠度的置信區間圖 表9 6例9 1資料的置信區間和y的預測區間的計算 2 3 4 6 7 8 一代三化螟盛發期估計及其95 置信限畫出的圖像 依次標出 x L1 和 x L2 坐標點 再連接各 x L1 得線 連接各 x L2 得線 連接各 x L2 得線 和所夾的區間即包括在內有95 可靠度的置信區間 稱 x 的連線 x 的連線 其所夾的區間即為y的95 的預測區間或預測帶 3月下至4月中旬平均溫度累積值例9 1資料的y估計值及其95 置信帶 第三節直線相關 一 相關系數和決定系數二 相關系數的假設測驗 一 相關系數和決定系數 一 相關系數 X Y 總體沒有相關 則落在象限 的點是均勻分散的 因而正負相消 0 當 X Y 總體呈正相關時 落在象限 的點一定比落在象限 的多 故一定為正 同時落在象限 的點所占的比率愈大 此正值也愈大 當 X Y 總體呈負相關時 則落在象限 的點一定比落在象限 的為多 故一定為負 且落在象限 的點所占的比率愈大 此負值的絕對值也愈大 的值可用來度量兩個變數直線相關的相關程度和性質 但是 X和Y的變異程度 所取單位及N的大小都會影響其大小 這些因素的影響是可以消去的 方法就是將離均差轉換成以各自的標準差為單位 使成為標準化離差 再以N除之 可定義雙變數總體的相關系數為 9 33 9 33 的已與兩個變數的變異程度 單位和N大小都沒有關系 是一個不帶單位的純數 因而可用來比較不同雙變數總體的相關程度和性質 相關系數是兩個變數標準化離差的乘積之和的平均數 相關系數的含義 相關系數的功能定義 表示變量間相關性質與程度的統計數相關系數的計算定義 由自變量引起的回歸平方和占依變量總平方和比率的平方根 見公式9 34下 相關系數的推導定義 是兩個變數標準化離差的乘積之和的平均數 一般回答問題時常指功能定義 樣本的相關系數r 9 34 因為 在回歸分析時分成了兩個部分 一部分是離回歸平方和Q 另一部分是回歸平方和U SP 2 SSx 因此 又可有定義 r的取值區間是 1 1 雙變數的相關程度決定于 r r 越接近于1 相關越密切 越接近于0 越可能無相關 r的顯著與否還和自由度有關 越大 受抽樣誤差的影響越小 r達到顯著水平的值就較小 正的r值表示正相關 負的r值表示負相關 而相關系數r的正或負和回歸系數b是保持一致 二 決定系數 決定系數 determinationcoefficient 定義為由x不同而引起的y的平方和占y總平方和SSy 的比率 也可定義為由y不同而引起的x的平方和占x總平方和SSx 的比率 其值為 9 35 所以決定系數即相關系數r的平方值 決定系數和相關系數的區別在于 除掉 r 1和0的情況外 r2總是小于 r 這就可以防止對相關系數所表示的相關程度作夸張的解釋 例如 r 0 5 只是說明由x的不同而引起的y變異 或由y的不同而引起的x變異 平方和僅占y總變異 或x總變異 平方和的r2 0 25 即25 而不是50 r是可正可負的 而r2則一律取正值 其取值區間為 0 1 因此 在相關分析由r的正或負表示相關的性質 由r2的大小表示相關的程度 三 相關系數和決定系數的計算 例9 11 試計算例9 1資料3月下旬至4月中旬積溫和一代三化螟盛發期的相關系數和決定系數 在例9 1已算得該資料的SSx 144 6356SSy 249 5556 SP 159 0444 故代入 9 34 有 代入 9 35 有 以上結果表明 一代三化螟盛發期與3月下旬至4月中旬的積溫成負相關 即積溫愈高 一代三化螟盛發期愈早 在一代三化螟盛發期的變異中有70 08 是由3月下旬至4月中旬的積溫不同造成的 二 相關系數的假設測驗 一 的假設測驗測驗樣本相關系數r來自無線性相關總體的概率 所作的假設為H0 對HA 0 在總體中抽樣 r的分布隨樣本容量n的不同而不同 r的抽樣誤差 9 36 H0 當時 或 9 37 此t值遵循的t分布 由之可測驗H0 例題見下一面 對于同一資料 線性回歸的顯著性等價于線性相關的顯著性 將 9 37 移項 即可得到自由度和顯著水平一定時的臨界r值 例9 12 試測驗例9 11所得r 0 8371的顯著性 H0 HA 由 9 36 可得 代入 9 37 得 查附表4 t0 01 7 3 50 現實得 t 4 05 t0 01 所以H0 被否定 HA 被接受 r在水平上顯著 即此r 0 8371說明3月下旬至4月中旬積溫和一代三化螟盛發期是有真實直線相關的 且積溫愈高 三化螟的盛發期愈早 y愈小 本例t 4 05和該資料在例9 3作回歸系數的假設測驗時的t 4 05完全相同 這不是偶然巧合 而是必然結果 對于同一資料來說 線性回歸的顯著性和線性相關的顯著性一定

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論