計量經濟學6多元線性回歸_第1頁
計量經濟學6多元線性回歸_第2頁
計量經濟學6多元線性回歸_第3頁
計量經濟學6多元線性回歸_第4頁
計量經濟學6多元線性回歸_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、56 Chapter6IntroductiontoMultipleRegression多元線性回歸rnmichirtiontnEcotiotiietriesLSlockXluik.IVuisr*ii問題的提出在加利佛尼亞數據集中,盡管較低學生/教師比的學區往往具有較高的測試成績,但小班學區的學生在標準測試中取得好成績可能源于其他因素。是因為沒有考慮到其他因素才得出令人誤解的結論嗎?如果是這樣的話,該怎么辦?56 #56 #主要內容遺漏變量偏差因果效應和回歸分析多元回歸的OLS估計量多元回歸的擬合優度多元回歸中OLS估計量的分布多重共線性corstrel_pct(obs=420)|strel_p

2、ct+str|1.0000el_pct|0.18761.0000如果學生/教師比與英語學習者百分率之間的相關系數為0,則忽略測試成績對學生/教師比回歸中忽略英語的熟練程度是“安全”的。然而,學生/教師比與英語學習者百分率之間的相關系數為0.19,表明英語學習者越多,則學生/教師比越高,即班級規模越大。意味著,測試成績對學生/教師比回歸的系數中可能包含了這一影響。56 #56 遺漏變量對OLS估計量的影響如果對Y有影響的因素沒有被加入到回歸模型中去,這時誤差u會增加。沒有放入在模型中的變量就是所謂的遺漏變量。遺漏變量的影響是不可忽視的,它會致使OLS估計量有偏。例如,在加利佛尼亞數據的分析中,影

3、響學生測試成績的因素可能包括學校特征、學生特征等。遺漏變量要滿足的條件回歸中存在遺漏變量會導致遺漏變量偏差問題。假設Z為遺漏變量,要同時滿足以下條件:遺漏變量是因變量的一個決定因素(i.e.Zispartofu)。遺漏變量與回歸中的回歸變量相關(i.e.corr(Z,X)工0)。1112 測試時間測試時間會影響測試成績;測試時間與班級規模無關。教師停車場面積教師停車場面積與測試成績無關;教師停車場面積與班級規模有關。遺漏英語學習者百分率(Z)是否存在遺漏變量偏差?在關于測試成績的例子中:英語語言能力是否影響測試成績?對移民家庭而言,英語是學生的第二語言,這從經驗上看對學生測試成績是有影響的,即

4、Z是Y的一個影響因素。移民家庭較多的社區往往并不是十分富裕,這導致這些2.學區的教育預算較少,也就是說這些學校的STR較高,即Z與STR相關。所以遺漏英語學習者百分率存在遺漏變量偏差。1112 #1112 遺漏變量偏差與第一個最小二乘假設遺漏變量偏差意味著第一個最小二乘假設E(ulx)=0不成立。ii一元線性回歸中的誤差項u表示除X外所有決定Y的因素。iii若其中某個因素與X相關,則誤差項與X相關。ii因此,給定X時,u的均值不為零。ii這一相關性違反了最小二乘的第一個假設,造成了嚴重的后果,即OLS估計量是有偏的,這個偏差即使在大樣本下也不會消失,因此OLS估計量是非一致的。遺漏變量偏差公式

5、由(4.30),工(X-X)u0廠Pi=(XX)2ii=1其中v.=(兀-X)ui沁(Xi-X)ui則1區vni如果滿足OLS第一個假設,E(X.-UX)uJ=cov(X.,u.)=0.但是如果假設一不滿足,貝fE(X廠也=COV(Xi,Ui)=.H010遺漏變量偏差公式回顧假設1:丄瓦(XX)”P1-P1=存r乙(X-X)2i遺漏變量偏差公式p142P與P1+11oJXuX如果Z同時滿足以下條件:ni=1Z是Y的影響因素之一;Z與X相關。,馬冬”分子分母同時:乘以PX”,則PXu工0,OLS估計量0是有偏和非一致的。(1)若存在遺漏變量,無論樣本容量多大,遺漏變量偏差都會存在;(2)這一偏差

6、的大小取決于回歸變量與誤差項之間相關系數大小;pX越大,則偏差越大。其中PXu=corr(X,u).如果假設1成立的話,則PXu=0,但是,如果假設1不成立:則(3)偏差的方向取決于X和u是正相關還是負相關。1718 遺漏誤差偏差的方向?TJULEt.1DAvrwmmIniESconEhfraQJJiikiSckodi立khvriiiLc*crvAFfigk蟲adEK*lmk.4#rhe-tfcewgirftngMLwmEHihkl0存在一個向下的偏差。如果小于0kibar*i*lUJHAN-ifrnthlivaKl.4UCHvnmli|hnincf*:.Kh.MJji-ilUiiMMillF

7、MtTu44INfwXnt1*1haitlrflwnlahat4h4.*dhE英語學習者比例較少的學區平均意義上測試成交較高。英語學習者比例較低的學區班級規模較小。英語學習者比例接近的學區,班級規模對測試成績影響較小。比較下,不對英語學習者比例分組,班級規模總體上對測試成績的影響的差異為7.4分。這如何解釋?1718 #英語學習者比例最多的學區具有比其他學區更低的測試成績和更高的學生/教師比。1718 #1718 #13141718 #1718 #莫扎特效應1993年,加利福尼亞大學歐文分校的戈登肖教授進行了一項實驗。他們讓大學生在聽完莫扎特的雙鋼琴奏鳴曲后馬上進行空間推理的測驗,結果發現大學

8、生們的空間推理能力發生了明顯的提高。他們將這種現象稱作莫扎特效應。解決遺漏變量偏差的辦法進行隨機對照試驗(原理?)數據分組處理遺漏變量偏差(原理?)進行多元回歸(原理?)1718 #1718 #1615多元回歸模型1718 #1718 假設只有兩個自變量X和X:12Yi=00+01X1i+02X2i+:i,:=JY是因變量;,X2是回歸變量或控制變量。00為截距01表示在保持X2不變或控制X2時,X變化1個單位對Y的效應。02表示在保持X不變或控制X時,X2變化1個單位對Y的效應。:為誤差項。i/兩個回歸變量的總體多元回歸模型Yi=00+P1X1i+02X2i+:i=n控制X2不變,X1變化A

9、X變化前總體回歸線為:Y=00+01X1+02X2總體回歸線變化后的總體回歸線為:Y+AY=00+01(X1+AX1)+02X21718 #2930 #2324 Y=Po+Pi(X1+AX1)+P2X2Y+AY=P0+P1(X1+AX)+P2X2AY=P1AX1P.=,控制x2不變AX21AYP2=,控制X1不變AX1Po=當X.=X2=0時的預測值19多元回歸的OLS估計量對于2個回歸變量minbX)2bo,b.,b2i01li22i2i=lOLS估計量使得觀測Yj和預測值之間的誤差平方和最小。202930 #2324 #2930 #2324 #例:加利佛尼亞數據集TestScore對STR

10、回歸:TnstScore=698.9一2.28xSTR在回歸中增加英語學習者比例(PctEL):TestScore=686.0一1.10 xSTR-0.65PctELSTR的系數如何發生變化為什么?(注意:corr(STR,PctEL)=0.19)21MultipleregressioninSTATA.regtestscrstrel_pct,rLinearregressionNumberofobs=420F(2,417)=223.82ProbF=0.0000R-squared=0.4264RootMSE=14.464|testscr|Coef.RobustStd.Err.tP|t|95%Con

11、f.Intervalstr|-1.101296.4328472-2.540.011-1.95213-.2504616elpct|-.6497768.0310318-20.940.000-.710775-.5887786_cons|686.03228.72822478.600.000668.8754703.189testscr=686.0-1.10STR-0.65PctEL222930 #2324 #2930 2324 #回歸標準誤和均方根誤差對于Yi=卩0+卩1Xii+P2X2iPkXki+u,,j=1,,回歸標準誤和均方根誤差度量了Y的分布在回歸線周圍的分散程度。SER=:n-:-1另U2i

12、=1i=1除數n-k-1調整了估計k+1個系數引起的向下的偏差。當n較大時,自由度調整的效用可忽略。多元回歸的R2回歸為可由回歸變量解釋(或預測)的樣本方差的比例。等價地,R2等于1減去不能由回歸變量解釋的號的比例。TOC o 1-5 h zESSSSRR2=1-,TSSTSS其中:解釋平方和ESS=為(Y-Y)2,殘差平方和SSR=藝U,總平iii=1i=1方和TSS=為(Y一Y)2.i在多元回歸中,除非增加的回歸變量系數估計值恰好為零,否則只要增加新的回歸變量個數,R2就會增大。實際中,系數估計值恰好為零是極為不常見的。調整斤2(即尿)TOC o 1-5 h z由于增加新變量后R2會增大,

13、因此R2增加并不意味著增加一個變量實際上提高了模型的擬合程度。在此意義下,R2夸大地估計了回歸擬合數據的效果。_調整R2是R2的一種修正形式,即增加新的回歸變量后R2不一定增大,其表達式為:調整R2:R2=1-(=1-先(n-k-1丿TSSs2Y注意R2=1-P丿SSR=1-甞(n-k-1丿TSSS2Yr2總是小于R2。增加一個回歸變量對R2有兩種相反的作用。一方面,SSR降低使R2增大;另一方面,因子(n-l)/(n-k-1)會增大。所以R2是增大還是減小取決于這兩種作用的強弱。R2可能為負。當所有的回歸變量減少的殘差平方和太小以至于無法抵消因子(n-1)/(n-k1)時R2為負。2930

14、#2324 #2930 #2324 #26用、STATA做多元回歸舉例regtestscrstrel_pctSource|SSdfMSNumberofobs=420+-F(2,417)=155.01Model|64864.3011232432.1506ProbF=0.0000Residual|87245.2925417209.221325R-squared=0.4264+-AdjR-squared=0.4237Total|152109.594419363.030056RootMSE=14.464testscr|Coef.Std.Err.tP|t|95%Conf.Intervalstr|-1.1

15、01296.3802783-2.900.004-1.848797-.3537945elpct|-.6497768.0393425-16.520.000-.7271112-.5724423_cons|686.03227.41131292.570.000671.4641700.6004testscr=686.0-1.10STR-0.65PctEL272825加州數據集回歸擬合優度比較nScore=698.92.28xSTR,R2=.05,SER=18.6TestScore=686.0-1.10 xSTR-0.65PctEL,R2=.426,R2=.424,SER=14.5如何解釋式(1)和式(2)

16、擬合優度發生的變化?為何式(2)中R2和R2如此接近?2930 #2324 #2930 #2324 #多元回歸的最小二乘假設Yi=卩0+卩lXli+卩2X2i+卩kXki+Ui,=給定X,X,X時,u的條件分布均值為零。1i2ikii(X,X,X,Y),i=1i2ikii厶2,n,iid.不太可能出現大異常值。不存在完全多重共線性。假設1:給定X,X,X時,u的條件分布均值為零。1i2ikiiE(ulX=X,,Xk=xj=0該假設將一元回歸的第一個最小二乘假設推廣到多元回歸場合。.存在遺漏變量偏差時,假設1不成立。解決的方法是將對應的遺漏變量添加為回歸變量。4142 #3536 假設2:(X“

17、,.,Xki,Yi),i=1,.,i.i.d.如果數據是通過簡單隨機抽樣收集的,則該假設自然成立。假設3:不太可能出現大異常值(非零有限四階距)。同一元回歸情況,多元回歸模型中系數的OLS估計量對大異常值敏感。假設4:不能存在完全多重共線性若其中一個回歸變量是其他回歸變量的完全線性函數,則稱回歸變量間是完全多重共線性的,也稱存在完全多重共線性。.例:假設做測試成績對STR,STR回歸,顯示結果如下regresstestscrstrstr,robustRegressionwithrobuststandarderrorsNumberofobs=420F(1,418)=19.26ProbF=0.00

18、00R-squared=0.0512RootMSE=18.5814142 #3536 #4142 #3536 #31|testscr|Coef.RobustStd.Err.tP|t|95%Conf.Intervalstr|-2.279808.5194892-4.390.000-3.300945-1.258671str|(dropped)cons|698.93310.3643667.440.000678.5602719.305732如何解釋多元回歸中出現完全多重共線性時的不合理情況?在上述回歸中,卩1是控制其他回歸變量不變時STR變化一個單位致使測試成績產生的變化,然而,這里的其他回歸變量同時又

19、是STR本身,這將導致矛盾的結果。多元回歸中OLS估計量的分布滿足四個最小二乘假設條件下:R是卩J無偏一致估計量。大樣本下,:賈近似服從N(0,1)(CLT)1上述結論對于0也成立。2k33344142 3536 #4142 3536 #完全多重共線性舉例兩個回歸變量相同:如測試成績對兩個STR進行回歸對常數項回歸:如“不是非常小的班級”(p156)。虛擬變量陷阱:根據虛擬變量的設置原則,一般情況下,如果定性變量有m個類別,則需在模型中引入m-1個變量。如果引入了m個變量,就會導致模型解釋變量出現完全的共線性問題,從而導致模型無法估計。這種由于引入虛擬變量個數與類別個數相等導致的模型無法估計的

20、問題,稱為“虛擬變量陷阱”。虛擬變量陷阱解決辦法解決虛擬變量陷阱的常用辦法是吧其中一個二元變量剔除出多元回歸,因此G個二元變量中只有G-1個是回歸變量。注意:在這種情況下,相對于剔除的基礎類而言,包含在內的二元變量系數表示固定其他回歸變量情形下落在該類中的增加效應。不完全多重共線性不完全多重共線性與完全多重共線性截然不同。不完全多重共線性意味著兩個或多個回歸變量之間是高度相關的,是回歸變量的某種線性組合與其他回歸變量高度相關的意思。不完全多重共線性對OLS估計量的理論不構成任何問題。若回歸變量間存在著不完全多重共線性,則至少無法精確估計其中一個回歸變量的系數。例如:Testscore對STR和

21、PctEL的回歸中,加入第三個回歸變量,該變量為第一代移民的學區居民百分率。PctEL與移民百分率高度相關。37不完全多重共線性對OLS估計量方差的影響:附錄62假設回歸中只包含兩個回歸變量,且誤差同方差,u的條件方差可以表示為var(u|X,X)=g2。ii1i2iu大樣本下0的抽樣分布為N(0,g2),其中g2為:A111-P2X1,Xi表示兩個回歸變量X和X的總體相關系數,12g2ug2X11g2=0,n其中P6.1&X2g2表示X的總體方差。X,1384142 #3536 #4142 #3536 #習題2(p160)第6章習題14142 #3536 #4142 #3536 #1計算每個

22、回歸的R2根據6.15)式,R2=1-n-1(1-R2)n一k一1對于第一次回歸,n=4000,k=2R2=1-400014000-2-1(1-0.176)=0.1756對于第二次回歸,n=4000,k=3R2=1-4000一1(1-0.190)=0.18944000-3-1對于第三次回歸,n=4000,k=6R2=1-4000一1(1-0.194)=0.19284000-6-12利用表6.2列(2)中的回歸結果回答:(1)大學畢業的工人平均比高中畢業的工人掙得多么?多多少?(2)男性平均比女性掙得多么?多多少?(1)大學畢業的工人平均比高中畢業的工人多掙5.46美元/小時。(2)男性平均比女

23、性多掙2.64美元/小時。39404142 3536 #4142 #3536 #習題3(p160)3利用表6.2列(2)中的回歸結果回答:(1)年齡是收入的重要決定因素么?(2)Sally是29歲的女性大學畢業生。Betsy是34歲的女性大學畢業生。分別預測Sally和Betsy的收入。(1)平均而言,年齡每增加1年,工人收入增加0.29美元/小時。(2)預計Sally的收入為4.40+5.48x1-2.62x1+0.29x29=15.67美元預計Betsy的收入為4.40+5.48x1-2.62x1+0.29x34=17.12美元4利用表6.2列(3)中的回歸結果回答:(1)地區間的平均收入

24、看起來存在重大差距么?(2)為什么在回歸中省略了回歸變量West?如果加上它會如何?(3)Juantia是來自南部的28歲女性大學畢業生。Jennifer是來自中西部的28歲女性大學畢業生。計算Juantia和Jennifer收入之間的期望差距。控制回歸中其他變量不變,平均而言,北部地區工人比西部地區工人每小時多掙0.69美元。控制回歸中其他變量不變,平均而言,中部地區工人比西部地區工人每小時多掙0.60美元。控制回歸中其他變量不變,平均而言,南部地區工人比西部地區工人每小時少掙0.27美元。47 3536 #4利用表6.2列(3)中的回歸結果回答:(1)地區間的平均收入看起來存在重大差距么?(2)為什么在回歸中省略了回歸變量West?如果加上它會如何?(3)Juantia是來自南部的28歲女性大學畢業生。Jennifer是來自中西部的28歲女性大學畢業生。計算Juantia和Jennifer收入之間的期望差距。(2)在回歸中省略了回歸變量West,目的是為了避免產生完

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論