多重共線性課件1_第1頁
多重共線性課件1_第2頁
多重共線性課件1_第3頁
多重共線性課件1_第4頁
多重共線性課件1_第5頁
已閱讀5頁,還剩47頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多重共線性

引子:

農業的發展會減少財政收入嗎?

為了分析各主要因素對財政收入的影響,建立財政收入模型:其中:CS財政收入(億元);NZ農業增加值(億元);GZ工業增加值(億元);JZZ建筑業增加值(億元);TPOP總人口(萬人);CUM最終消費(億元);SZM受災面積(萬公頃)數據樣本時期1978年-2007年(資料來源:《中國統計年鑒2008》,中國統計出版社2008年版)采用普通最小二乘法得到以下估計結果財政收入模型的EViews估計結果VariableCoefficientStd.Errort-StatisticProb.

農業增加值工業增加值建筑業增加值總人口最終消費受災面積截距-1.9075480.0459476.4583740.0960220.003108-0.027627-5432.5070.3420450.0427460.7657670.0916600.0428070.0489048607.753-5.5768881.0748928.4338671.0475910.072609-0.564916-0.6311180.00000.29360.00000.30570.94270.57760.5342R-squared0.989654AdjustedR-squared0.986955S.E.ofregression1437.448Sumsquaredresid47523916Loglikelihood-256.7013Durbin-Watsonstat1.654140

Meandependentvar10049.04

S.D.dependentvar12585.51

Akaikeinfocriterion17.58009

Schwarzcriterion17.90704

F-statistic366.6801

Prob(F-statistic)0.000000

●可決系數為0.9897

,校正的可決系數為0.9870,模型擬合很好。模型對財政收入的解釋程度高達98.9%。●F統計量為366.68,說明0.05水平下回歸方程整體上顯著。●t檢驗結果表明,除了農業增加值、建筑業增加值以外,其他因素對財政收入的影響均不顯著。●農業增加值的回歸系數是負數。

農業的發展反而會使財政收入減少嗎?!

這樣的異常結果顯然與理論分析和實踐經驗不相符。若模型設定和數據真實性沒問題,問題出在哪里呢?模型估計與檢驗結果分析第四章多重共線性

本章討論四個問題:

●多重共線性的含義和產生的原因●多重共線性產生的后果●多重共線性的檢驗●多重共線性的補救措施第一節什么是多重共線性

本節基本內容:

●多重共線性的含義●產生多重共線性的背景

在計量經濟學中所謂的多重共線性(Multi-Collinearity),包括解釋變量之間有準確的線性關系,也包括近似準確的線性關系。具體可分為:完全的多重共線性,還包括不完全的多重共線性。

在有截距項的模型中,截距項可以視為其對應的解釋變量總

是為1。對于解釋變量,如果存在不全為0的

數,使得

則稱解釋變量之間存在著完全的多重共

線性。一、多重共線性的含義

實際中,常見的情形是解釋變量之間存在不完全的多重共線性。

對于解釋變量,存在不全為0的數,使得

為隨機變量。這表明解釋變量只是一種近似的線性關系。其中,注:(1)如果解釋變量之間不存在完全或不完全的線性關系,則稱無多重共線性。(2)需要強調,解釋變量之間不存在線性關系,并非不存在非線性關系,當解釋變量存在非線性關系時,并不違反無多重共線性的假定。

,解釋變量間毫無線性關系,變量間相互正交。這時已不需要作多元回歸,每個參數

j都可以通過Y對Xj的一元回歸來估計。回歸模型中解釋變量的關系

可能表現為三種情形:(1)

,解釋變量間完全共線性。此時模型參數將無法確定。

,解釋變量間存在一定程度的線性關系。實際中常遇到的情形。(2)(3)

二、產生多重共線性的背景

多重共線性產生的經濟背景主要有幾種情形:

1.經濟變量之間具有共同變化趨勢。

2.模型中包含滯后變量。(含有滯后變量的模型一般都存在多重共線性)

3.利用截面數據建立模型也可能出現多重共線性。(經濟變量之間的內在聯系,這是產生多重共線性的根本原因)

4.樣本數據自身的原因。

第二節多重共線性產生的后果

本節基本內容:●完全多重共線性產生的后果●不完全多重共線性產生的后果一、完全多重共線性產生的后果1.參數的估計值不確定當解釋變量完全線性相關時——OLS估計式不確定▲從偏回歸系數意義看:在和完全共線性時,無法保持不變,去單獨考慮對的影響(和的影響不可區分)▲從OLS估計式看:可以證明此時2.參數估計值的方差無限大OLS估計式的方差成為無窮大:

二、不完全多重共線性產生的后果⒈參數估計量的方差增大

對于二元回歸模型

可以證明,的方差為:

D()=D()=

式中第二項因子稱為方差擴大(膨脹)因子記成VIF

r12為x1、x2的相關系數

從方差膨脹因子看出,OLS估計量的方差隨著多重共線性的出現而“膨脹”起來。當高度相關時(即兩解釋的相關系數趨向于1),VIF趨向于正無窮大。因而,隨著多重共線性嚴重程度的加大,OLS估計量的方差將成倍地增長,直至趨于無窮大。

2.對參數區間估計時,置信區間趨于變大

方差增大標準差也增大置信區間變大3.假設檢驗容易作出錯誤的判斷即t檢驗的可靠性降低。4.可能造成可決系數較高,經F檢驗的參數聯合顯著性也很高,但對各個參數單獨的t檢驗卻可能不顯著,甚至可能使估計的回歸系數符號相反,得出完全錯誤的結論。5.回歸模型缺乏穩定性6.難以區分每個解釋變量的單獨影響

計量經濟模型中經常需要利用回歸系數分析各個解釋變量對被解釋變量的單獨影響。對于多元線性回歸模型,回歸系數

b的經濟含義是:在其他變量保持不變的情況下,xj變化一個單位將使y變化個b單位.如果模型存在多重共線性,解釋變量的相關性將無法“保持其他變量不變”,因此也就難以分析每個解釋變量對被解釋變量的單獨影響。

第三節多重共線性的檢驗

本節基本內容:

●簡單相關系數檢驗法●輔助回歸模型檢驗●方差擴大(膨脹)因子法●直觀判斷法●逐步回歸法一、簡單相關系數檢驗法

含義:簡單相關系數檢驗法是利用解釋變量之間的線性相關程度去判斷是否存在嚴重多重共線性的一種簡便方法。判斷規則:一般而言,如果每兩個解釋變量的簡單相關系數(零階相關系數)比較高,例如大于0.8,則可認為存在著較嚴重的多重共線性。

注意:

較高的簡單相關系數只是多重共線性存在的充分條件,而不是必要條件。特別是在多于兩個解釋變量的回歸模型中,有時較低的簡單相關系數也可能存在多重共線性。因此并不能簡單地依據相關系數進行多重共線性的準確判斷。

命令方式:COR解釋變量名菜單方式:將所有解釋變量設置成一個數組,并在數組窗口中點擊View/Correlations二、輔助回歸模型檢驗

k個解釋變量,以其中一個對其他解釋變量進行回歸,可以獲得k個輔助方程.

(i=1,2,…,k)

如果,其中某些方程顯著(即F檢驗通過),則表明存在多重共線性,所對應的變量可以近似地用其他解釋變量線性表示。

輔助回歸方程的擬合程度越高,解釋變量之間的多重共線性越嚴重。

三、方差擴大(膨脹)因子法

統計上可以證明,解釋變量的參數估計式的方差可表示為

其中的是變量(VarianceInflationFactor),即的方差擴大因子其中是多個解釋變量輔助回歸的可決系數

Ri2為xi關于其它解釋變量輔助回歸模型的可決系數

為方差膨脹因子經驗規則●方差膨脹因子越大,表明解釋變量之間的多重共性越嚴重。反過來,方差膨脹因子越接近于1,多重共線性越弱。●經驗表明,方差膨脹因子≥10時,說明解釋變量與其余解釋變量之間有嚴重的多重共線性,且這種多重共線性可能會過度地影響最小二乘估計。

另一個與VIF等價的指標是“容許度”(Tolerance),其定義為:

顯然,0≤TOL≤1;當xi與其它解釋變量高度相關時,TOL→0。因此,一般當TOL<0.1時,認為模型存在較嚴重的多重共線性。四、直觀判斷法1.當增加或剔除一個解釋變量,或者改變一個觀測值時,回歸參數的估計值發生較大變化,回歸方程可能存在嚴重的多重共線性。

2.從定性分析認為,一些重要的解釋變量的回歸系數的標準誤差較大,在回歸方程中沒有通過顯著性檢驗時,可初步判斷可能存在嚴重的多重共線性。(引例)3.有些解釋變量的回歸系數所帶正負號與定性分析結果違背時,很可能存在多重共線性。(引例)4.解釋變量的相關矩陣中,自變量之間的相關系數較大時,可能會存在多重共線性問題。五、逐步回歸檢測法

逐步回歸的基本思想將變量逐個的引入模型,每引入一個解釋變量后,都要進行F檢驗,并對已經選入的解釋變量逐個進行t檢驗,當原來引入的解釋變量由于后面解釋變量的引入而變得不再顯著時,則將其剔除。以確保每次引入新的變量之前回歸方程中只包含顯著的變量。在逐步回歸中,高度相關的解釋變量,在引入時會被剔除。因而也是一種檢測多重共線性的有效方法。特征值根據病態數、病態指數判斷六、特征值檢驗第四節多重共線性的補救措施

本節基本內容:

●修正多重共線性的經驗方法●逐步回歸法嶺回歸法在本科教學中只是供選擇使用的內容。

首先明確建立模型的目的:預測、結構分析或政策評價。如果建立模型的目的是進行預測,只要模型的擬合優度較高,并且解釋變量的相關類型在預測期內保持不變,則可以忽略多重共線性的問題。如果是應用模型進行結構分析或政策評價,即利用系數分析、比較各個解釋變量的單獨影響,則需要消除多重共線性的影響。一、修正多重共線性的經驗方法1.剔除變量法把方差擴大因子最大者所對應的自變量首先剔除,再重新建立回歸方程,直至回歸方程中不再存在嚴重的多重共線性。注意:

剔除變量一定要慎重!!否則會引起其他問題。需注意產生新的問題:

①模型的經濟意義不合理;②是否使模型產生異方差性或自相關性;③若剔除不當,可能會產生模型設定誤差,造成參數估計嚴重有偏

一般而言,在選擇回歸模型時,可以將回歸系數的顯著性檢驗(解釋變量的t檢驗通過,則一定不存在多重共線性;若有的t檢驗不一定通過,則可能存在多重共線性)、方差擴大因子VIF的多重共線性檢驗和解釋變量的經濟含義(通過經濟分析確定變量的相對重要性)結合考慮,以剔除不重要的變量。2.增大樣本容量

如果樣本容量增加,會減小回歸參數的方差,標準誤差也同樣會減小。因此盡可能地收集足夠多的樣本數據可以改進模型參數的估計。運用回歸分析研究經濟問題時,要盡量使樣本容量遠大于自變量個數。問題:增加樣本數據在實際計量分析中常面臨許多困難。

3.變換模型形式

一般而言,差分后變量之間的相關性要比差分前弱得多,所以差分后的模型可能降低出現共線性的可能性,此時可直接估計差分方程。問題:差分會丟失一些信息,差分模型的誤差項可能存在序列相關,可能會違背經典線性回歸模型的相關假設,在具體運用時要慎重。

4.利用非樣本先驗信息通過經濟理論分析能夠得到某些參數之間的關系,可以將這種關系作為約束條件,將此約束條件和樣本信息結合起來進行約束最小二乘估計。(見課本舉例)5.橫截面數據與時序數據并用首先利用橫截面數據估計出部分參數,再利用時序數據估計出另外的部分參數,最后得到整個方程參數的估計。注意:這里包含著假設,即參數的橫截面估計和從純粹時間序列分析中得到的估計是一樣的。

6.變量變換變量變換的主要方法:(1)計算相對指標;(2)將名義數據轉換為實際數據;(3)將小類指標合并成大類指標;注意:變量變換有時可得到較好的結果,但無法保證一定可以得到很好的結果。

可以看出,上述方法最終還是通過減少模型中解釋變量個數的方式(即剔除引起多重共線性的變量)來消除多重共線性的影響。二、逐步回歸法(Frisch綜合分析法)

基本原理:從所有解釋變量中間先選擇影響最為顯著的變量建立模型,然后再將模型之外的變量逐個引入模型;每引入一個變量,就對模型中的所有變量進行一次顯著性檢驗,并從中剔除不顯著的變量;逐步引入—剔除—引入,直到模型之外所有變量均不顯著時為止。

實際中,一般步驟為:(1)利用相關系數從所有解釋變量中選取與被解釋變量相關性最強的變量建立一元回歸模型;(2)在一元回歸模型中分別引入第二個變量,共建立k-1個二元回歸模型(設共有k個解釋變量),從這些模型中再選取一個較優的模型。選擇時要求:參數符號正確,模型中每個解釋變量影響顯著,值有所提高。(3)在選取的二元回歸模型中以同樣方式引入第三個變量,建立k-2個三元回歸模型;如此下去,直至無法引入新的變量時為止。

若新變量的引入改進了和檢驗,且回歸參數的t檢驗在統計上也是顯著的,則在模型中保留該變量。

若新變量的引入未能改進和檢驗,且對其他回歸參數估計值的t檢驗也未帶來什么影響,則認為該變量是多余變量。

若新變量的引入未能改進和檢驗,且顯著地影響了其他回歸參數估計值的數值或符號,同時本身的回歸參數也通不過t檢驗,說明出現了嚴重的多重共線性。

第五節案例分析一、研究的目的要求提出研究的問題——為了規劃中國未來國內旅游產業的發展,需要定量地分析影響中國國內旅游市場發展的主要因素。二、模型設定及其估計影響因素分析與確定——影響因素主要有國內旅游人數,城鎮居民人均旅游支出,農村居民人均旅游支出,并以公路里程次和鐵路里程

作為相關基礎設施的代表

理論模型的設定其中:——第t年全國國內旅游收入年份國內旅游收入Y(億元)國內旅游人數X2(萬人次)城鎮居民人均旅游花費X3(元)農村居民人均旅游花費X4(元)公路里程X5(萬km)鐵路里程X6(萬km)19941023.552400414.754.9111.785.9019951375.762900464.061.5115.705.9719961638.463900534.170.5118.586.4919972112.764400599.8145.7122.646.6019982391.269450607.0197.0127.856.6419992831.971900614.8249.5135.176.7420003175.574400678.6226.6140.276.8720013522.478400708.3212.7169.807.0120023878.487800739.7209.1176.527.1920033442.387000684.9200.0180.987.3020044710.7110200731.8210.2187.077.4420055285.9121200737.1227.6193.057.5420066229.74139400766.4221.9345.707.7120077770.62161000906.9222.5358.377.80數據的收集與處理1994年—2007年中國旅游收入及相關數據

該模型,可決系數很高,F檢驗值593.4168,明顯顯著。但是當時、不僅、系數的t檢驗不顯著,而且系數的符號與預期的相反,這表明很可能存在嚴重的多重共線性。

OLS估計的結果計算各解釋變量的相關系數

表明各解釋變量間確實存在嚴重的多重共線性X2X3X4X5X6X2

1.000000

0.867192

0.566024

0.945539

0.891303X3

0.867192

1.000000

0.811726

0.805129

0.956903X4

0.566024

0.811726

1.000000

0.487669

0.790144X5

0.945539

0.805129

0.487669

1.000000

0.812921X6

0.891303

0.956903

0.790144

0.812921

1.000000三、消除多重共線性采用逐步回歸法檢驗和解決多重供線性問題。分別作Y對X2、X3、X4、X5、X6的一元回歸的大小排序為:X2、

X3、X6、X5、X4。以X2為基礎,順次加入其他變量逐步回歸,過程從略(見教材)

變量參數估計值0.058814.022519.610322.59573025.062t統計量18.24889.30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論