多重線性回歸分析_第1頁
多重線性回歸分析_第2頁
多重線性回歸分析_第3頁
多重線性回歸分析_第4頁
多重線性回歸分析_第5頁
已閱讀5頁,還剩57頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多重線性回歸分析第一頁,共六十二頁,編輯于2023年,星期五2內容基本原理方法簡介分析步驟幾點補充第二頁,共六十二頁,編輯于2023年,星期五3一、方法簡介

1.1分析目的與方法選擇研究一個因變量與一個自變量間的線性關系時簡單線性回歸分析研究一個因變量與多個自變量間的線性關系時多重線性回歸分析第三頁,共六十二頁,編輯于2023年,星期五4一、方法簡介1.2概念用回歸方程定量地刻畫一個因變量與多個自變量之間的線性依存關系,稱為多重線性回歸分析(multiplelinearregressionanalysis)。自變量是相互獨立的連續型變量或分類變量。

第四頁,共六十二頁,編輯于2023年,星期五一、方法簡介1.3數據結構表1進行多重線性回歸分析資料的數據結構5編號X1X2…XkY1X11X12…X1kY12X21X22…X2kY2:::::nXn1Xn2…XnkYn第五頁,共六十二頁,編輯于2023年,星期五6二、基本原理

2.1原理簡介多重線性回歸模型:

Y=b0+b1X1+b2X2+…+bkXk+e=bX+e

其中,bj(j=0,1,2…,k)為未知參數,e為隨機誤差項。第六頁,共六十二頁,編輯于2023年,星期五7二、基本原理多重線性回歸模型中包含多個自變量,它們同時對因變量Y發生作用。

若要考察一個自變量對Y

的影響,就必須假設其他自變量保持不變。因此,多重線性回歸模型中的回歸系數為偏回歸系數。它反映的是當模型中的其他自變量不變時,其中一個自變量對因變量Y的均值的影響。第七頁,共六十二頁,編輯于2023年,星期五8二、基本原理

2.2前提條件

多重線性回歸分析要求資料滿足線性(Linear)、獨立性(Independence)、正態性(Normality)和方差齊性(Equalvariance),即LINE條件。

除此之外,還要求多個自變量之間相關性不要太強。

第八頁,共六十二頁,編輯于2023年,星期五9二、基本原理

2.2前提條件線性——指自變量與因變量之間的關系是線性的獨立性——指各觀測值之間是相互獨立的正態性——指自變量取不同值時,因變量服從正

態分布方差齊性——指自變量取不同值時,因變量的方

差相等第九頁,共六十二頁,編輯于2023年,星期五10三、分析步驟1.基本任務

求出模型中參數的估計值,對模型和參數進行假設檢驗;對自變量進行共線性診斷,對觀測值進行異常值診斷;結合統計學知識和專業知識,對回歸方程進行合理的解釋,并加以應用。

第十頁,共六十二頁,編輯于2023年,星期五11三、分析步驟2.具體步驟2.1回歸參數估計

多重線性回歸分析的參數估計,常采用最小二乘法(OLS)進行。

參數估計值為:第十一頁,共六十二頁,編輯于2023年,星期五12三、分析步驟2.具體步驟2.2模型檢驗

根據方差分析的思想,將總的離均差平方和SS總分解為回歸平方和SS回和殘差平方和SS殘兩部分。

SS總的自由度為n-1,SS回的自由度為k,SS殘的自由度為n-k-1。第十二頁,共六十二頁,編輯于2023年,星期五SS總=SS回歸+SS殘差SS總(總平方和)v總=n-1{SS回歸(回歸平方和)v回歸=1{SS殘差(殘差平方和)v殘差=n-p-1{v總=v回歸+v殘差自變量的個數第十三頁,共六十二頁,編輯于2023年,星期五14三、分析步驟2.具體步驟2.2模型檢驗

模型的顯著性檢驗步驟為:第一步,建立檢驗假設。H0:b1=b2=…=bk=0H1:b1,b2,…,bk不同時為0第十四頁,共六十二頁,編輯于2023年,星期五15三、分析步驟第二步,計算統計量F的值。第三步,確定P值,下統計學結論。根據檢驗統計量F的值和自由度,確定其對應的P值。若P>a,則接受H0,認為回歸模型的系數全部為0;若P<a,則拒絕H0,接受H1,認為回歸模型的系數不全為0。第十五頁,共六十二頁,編輯于2023年,星期五16三、分析步驟2.具體步驟2.3參數檢驗回歸方程有統計學意義,可以說明整體上自變量對Y有影響,但并不意味著每個自變量對因變量的影響都有統計學意義。考察各個自變量對因變量的影響,即檢驗其系數是否為0。若某自變量對因變量的影響無統計學意義,可將其從模型中刪除,重新建立回歸方程。第十六頁,共六十二頁,編輯于2023年,星期五17三、分析步驟對自變量Xi的系數是否為0進行假設檢驗,步驟為:第一步,建立檢驗假設。H0:bi=0H1:bi≠0第十七頁,共六十二頁,編輯于2023年,星期五18三、分析步驟第二步,計算檢驗統計量。第三步,確定P值。根據自由度和臨界水平,查t分布表,可得雙側界值為ta/2(n-k-1)。若t>ta/2(n-k-1)或t<-ta/2(n-k-1),則P<a。此時,拒絕H0,接受H1,認為該回歸系數不等于0。反之,則接受H0,認為該回歸系數為0。第十八頁,共六十二頁,編輯于2023年,星期五19三、分析步驟2.具體步驟2.4變量篩選不是所有的自變量都對因變量的作用都有統計學意義。

故需要找到一個較好的回歸方程,使之滿足:方程內的自變量對回歸都有統計學意義,方程外的自變量對回歸都無統計學意義。第十九頁,共六十二頁,編輯于2023年,星期五20三、分析步驟這就是自變量的選擇問題,或稱為變量篩選。選擇時,一要盡可能地不漏掉重要的自變量;二要盡可能地減少自變量的個數,保持模型的精簡。就回歸方程而言,每個變量均有兩種可能性,即被選擇或被踢除。所以,所有可能的模型有2k個(k為自變量個數)。自變量個數較多時,計算量過大。此時,需要一定的變量篩選方法。第二十頁,共六十二頁,編輯于2023年,星期五全局擇優法變量篩選

逐步選擇法校正決定系數R2選擇法Cp選擇法前進法后退法逐步回歸法c第二十一頁,共六十二頁,編輯于2023年,星期五22三、分析步驟2.4.1前進法(FORWARD)回歸方程中變量從無到有依次選擇一個自變量進入回歸方程,并根據該變量在回歸方程中的Ⅱ型離差平方和(SS2)計算F統計量及P值。當P小于sle(規定的選變量進入方程的臨界水平)則該變量入選,否則不能入選。第二十二頁,共六十二頁,編輯于2023年,星期五23三、分析步驟當回歸方程中變量少時某變量不符合入選標準,但隨著回歸方程中變量逐次增多時,該變量就可能符合入選標準;這樣直到沒有變量可入選為止。具體而言,是從僅含常數項(即截距項)的最簡單模型開始,逐步在模型中添加自變量。

第二十三頁,共六十二頁,編輯于2023年,星期五24三、分析步驟局限性:sle取值小時,可能沒有一個變量能入選;sle取值大時,開始選入的變量后來在新條件下不再進行檢驗,因而不能剔除后來變得無統計學意義的變量。

第二十四頁,共六十二頁,編輯于2023年,星期五25三、分析步驟2.4.2后退法(BACKWARD)從模型中包含全部自變量開始,計算留在回歸方程中的各個自變量所產生的F統計量和P值,當P值小于sls(規定的從方程中踢除變量的臨界水準)則將此變量保留在方程中。否則,從最大的P值所對應的自變量開始逐一踢除,直到回歸方程中沒有變量可以被踢除時為止。

第二十五頁,共六十二頁,編輯于2023年,星期五26三、分析步驟局限性:sls大時,任何一個自變量都不能被踢除;sls小時,開始被踢除的自變量后來在新條件下即使變得對因變量有較大的貢獻了,也不能再次被選入回歸方程并參與檢驗。

第二十六頁,共六十二頁,編輯于2023年,星期五27三、分析步驟2.4.3逐步回歸法(STEPWISE)此法是前進法和后退法的結合。

回歸方程中的變量從無到有像前進法那樣,根據F統計量和P值大小按sle水平決定該自變量是否入選。

第二十七頁,共六十二頁,編輯于2023年,星期五28三、分析步驟當回歸方程選入自變量后,又像后退法那樣,根據F統計量和P值按sls水平踢除無統計學意義的各自變量,依次類推。這樣直到沒有自變量可入選,也沒有自變量可被踢除或入選的自變量就是剛被剔除的自變量時,則停止逐步篩選過程。

第二十八頁,共六十二頁,編輯于2023年,星期五29三、分析步驟2.4.3逐步回歸法

逐步回歸法有無符合納入標準的新變量納入新變量有無符合排除標準的變量踢除完成無有無有第二十九頁,共六十二頁,編輯于2023年,星期五30三、分析步驟

逐步回歸法比前進法和后退法都能更好地選出變量構造模型,但它也有局限性:其一,當有m個變量入選后,選第m+1個變量時,對它來說,前m個變量不一定是最佳組合;其二,選入或踢除自變量僅以F值和P值作標準,完全沒考慮其它標準。

第三十頁,共六十二頁,編輯于2023年,星期五31三、分析步驟2.4.4變量篩選方法的選擇究竟哪一種篩選變量的方法最好?這個問題沒有絕對的定論。

一般來說,逐步回歸法和最優回歸子集法較好。對于一個給定的資料,可試用多種變量篩選的方法,結合以下幾條判斷原則,從中選擇最佳者。第三十一頁,共六十二頁,編輯于2023年,星期五32三、分析步驟

其一,擬合的回歸方程在整體上有統計學意義;其二,回歸方程中各回歸參數的估計值的假設檢驗結果都有統計學意義;其三,回歸方程中各回歸參數的估計值的正負號與其后的變量在專業上的含義相吻合;其四,根據回歸方程計算出因變量的所有預測值在專業上都有意義。其五,若有多個較好的多重線性回歸方程時,殘差平方和較小且多重線性回歸方程中所含的自變量的個數又較少者為最佳。第三十二頁,共六十二頁,編輯于2023年,星期五33三、分析步驟2.5模型擬合效果評價2.5.1決定系數(R2)

即復(全)相關系數的平方,其值等于因變量觀測值與預測值之間簡單相關系數的平方。計算公式為:

第三十三頁,共六十二頁,編輯于2023年,星期五34三、分析步驟2.5模型擬合效果評價2.5.1決定系數(R2)

R2取值介于0到1之間,其含義為自變量能夠解釋因變量y變異的百分比。

R2越接近于1,說明線性回歸對實際數據的擬合程度越好。

第三十四頁,共六十二頁,編輯于2023年,星期五35三、分析步驟2.5模型擬合效果評價2.5.2校正決定系數(Rc2)

隨著模型中自變量個數的增加,決定系數R2將不斷增大,這不符合回歸模型中自變量個數盡可能少的原則。

第三十五頁,共六十二頁,編輯于2023年,星期五36三、分析步驟2.5模型擬合效果評價2.5.2校正決定系數(Rc2)故在評價兩個包含不同個數自變量的回歸模型的擬合效果時,不能簡單地用決定系數作為評價標準。此時,必須考慮回歸模型中自變量個數的影響。

第三十六頁,共六十二頁,編輯于2023年,星期五37三、分析步驟2.5模型擬合效果評價2.5.2校正決定系數(Rc2)構造校正決定系數,其公式為:

其中,n為樣本含量,p為模型中自變量個數。決定系數相同時,自變量個數越多,Rc2越小。

第三十七頁,共六十二頁,編輯于2023年,星期五38三、分析步驟2.5模型擬合效果評價2.5.3AIC信息準則

該準則由日本學者赤池于1973年提出,廣泛應用于時間序列分析中自回歸階數的確定,多重回歸、廣義線性回歸中自變量的篩選以及非線性回歸模型的比較和選優。該統計量取值越小,反映模型擬合效果越好。

第三十八頁,共六十二頁,編輯于2023年,星期五在進行多重線性回歸分析時,除了要滿足LINE外,還要求各變量之間不能存在共線性,即各變量之間要相互獨立。為此,需要進行共線性診斷;當自變量均為隨機變量時,若它們之間高度相關,則稱變量間存在多重共線性(multicollinearity);自變量之間不存在多重共線性,即稱其互相獨立。三、分析步驟2.6共線性診斷第三十九頁,共六十二頁,編輯于2023年,星期五40三、分析步驟多重線性回歸分析中,可能會出現以下問題:回歸方程的檢驗有統計學意義,而各偏回歸系數的檢驗均無統計學意義。偏回歸系數的估計值大小或其符號與實際情況和專業知識相違背,難以解釋。某個(些)與因變量關系密切的自變量,因為參數標準誤的估計值較大,相應t值就會變得較小,造成其偏回歸系數無統計學意義。第四十頁,共六十二頁,編輯于2023年,星期五41三、分析步驟導致這些問題的原因可能有:(1)研究設計不夠合理;(2)資料收集存在問題;(3)自變量間近似線性;(4)數據中存在異常點;(5)樣本少而自變量多。

第四十一頁,共六十二頁,編輯于2023年,星期五42三、分析步驟何謂多重共線性?自變量間的近似線性關系,即是多重共線性。由于數據自身的特征,回歸模型中的自變量之間或多或少地存在一些相關性,這違反了自變量間相互獨立的假設條件,稱為多重共線性。

第四十二頁,共六十二頁,編輯于2023年,星期五43三、分析步驟多重共線性的分類:(1)嚴重的多重共線性

此時,自變量之間存在著較高甚至完全的線性相關關系,雖然最小二乘法仍可應用,但由于觀測誤差的穩定性變差,所得的估計值可能面目全非。這類情況較為少見。(2)某種程度的多重共線性

此時,最小二乘法仍可獲得參數的無偏估計值,但參數的方差估計值將變得很大,導致估計精度下降,且無法判斷自變量對因變量的影響程度。第四十三頁,共六十二頁,編輯于2023年,星期五例

研究胎兒受精齡Y/周與胎兒身長X1/cm、頭圍X2/cm,體重X3/g之間的依存關系。顯然,此處的3個解釋變量X1、X2、X3之間存在著高度的共線性,X1、X2、X3兩項對Y的過分貢獻只能用X2項的負系數抵消,造成其專業意義無法解釋而出現悖論。三、分析步驟第四十四頁,共六十二頁,編輯于2023年,星期五相關系數Correlation容忍度Torelance方差膨脹因子VIF條件數Conditionindex方差比例Varianceproportions,VP

方差相關矩陣VarianceMatrix可用來判斷變量之間的獨立性、或說多重共線性三、分析步驟第四十五頁,共六十二頁,編輯于2023年,星期五如果兩個自變量之間的相關系數超過0.9,則會帶來共線性問題,如果在0.8以下,一般不會出現多大問題。共線性診斷——1.兩個自變量之間的相關系數第四十六頁,共六十二頁,編輯于2023年,星期五2.容忍度Tolerance/方差膨脹因子VIF經驗表明:VIF大于5或10時,存在嚴重的共線性;一般要求Tolerance必須大于0.1,或VIF必須小于10。容忍度=1/VIF第四十七頁,共六十二頁,編輯于2023年,星期五483.條件數最大特征根與其余每個特征根比值的平方根,稱為條件指數(conditionalnumber),公式為:

而最大條件指數,簡稱為條件數,其值為最大特征根與最小特征根之比值的平方根。即:

第四十八頁,共六十二頁,編輯于2023年,星期五49條件數越大,說明設計矩陣X具有越強的共線性。經驗上,若0<CNk<10,可認為自變量間不存在多重共線性;若10≤CNk≤30,可認為自變量間存在中等程度的多重共線性;若CNk>30,則認為自變量間存在嚴重的多重共線性。

第四十九頁,共六十二頁,編輯于2023年,星期五50三、分析步驟2.6.3共線性的解決方法(1)變量篩選采用自變量篩選的方法一般可選出對因變量有統計學影響且相互之間獨立或相關性較低的一組自變量。(2)有偏估計自變量間存在多重共線性且專業上認為需要保留在模型中時,不宜使用最小二乘法估計模型。此時,可采用有偏估計。此類方法包括嶺回歸分析、主成分回歸分析等。(3)增大樣本含量通過增加樣本含量,減少估計量的方差,提高估計精度,可在一定程度上克服多重共線性。第五十頁,共六十二頁,編輯于2023年,星期五51三、分析步驟2.7異常點診斷2.7.1異常點對因變量的預測值影響特別大,甚至容易導致相反結論的觀測點,稱為異常點。異常點的診斷,可采用學生化殘差統計量、Cook’sD統計量。

第五十一頁,共六十二頁,編輯于2023年,星期五52三、分析步驟2.7.2學生化殘差統計量Studentizedresidual,計算公式為:該統計量的絕對值大于2時,所對應的觀測點可能是異常點。

第五十二頁,共六十二頁,編輯于2023年,星期五53三、分析步驟2.7.3Cook’sD統計量庫克距離統計量。一般認為,

Cook’sD>0.5時,可認為此觀測點對回歸模型的擬合有強影響,即可認為是異常點。

第五十三頁,共六十二頁,編輯于2023年,星期五54三、分析步驟2.7.4異常點的處置

認真核對原始數據。若屬抄寫或輸入等人為錯誤,應予以糾正;若非人為錯誤,可刪除異常點,重新擬合回歸模型。

如有可能,最好在此實驗點上補做實驗,進一步確定此可疑異常點是否屬實。

第五十四頁,共六十二頁,編輯于2023年,星期五55三、分析步驟2.8自變量作用大小評價

由于自變量量綱不同,不能直接根據原始數據計算得來的偏回歸系數來評價各自變量對因變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論