




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四章經典線性回歸模型◆普通最小二乘法◆最小二乘法的基本假定◆最小二乘參數估計的精度或標準誤差◆最小二乘估計量的性質:高斯-馬爾可夫定理◆判定系數r2
:擬合優度的一個度量◆關于蒙特卡羅實驗的一個注記一、普通最小二乘法前一章我們提到根據樣本回歸函數盡可能準確地估計總體回歸函數,通常有兩種估計方法:普通最小二乘法(OrdinaryLeastSquares,OLS)和最大似然法(MaximumLikelihood,ML)。普通最小二乘法歸功于德國數學家高斯,在回歸分析中得到了廣泛運用。它比最大似然法簡單的多。回顧雙變量總體回歸函數PRF:該PRF不可直接觀測,同過SRF去估計它:(是的估計量,條件均值)為了考察SRF,把上式化為如下:對于給定的Y和X的n對觀測值,我們希望SRF盡可能靠近實際的Y。規則之一:選擇這樣的SRF,使得殘差和盡可能小。(goodorbad?)圖最小二乘準則最小二乘準則是要確定SRF使得下式盡可能的小:
可以看出,
給出不同的和將會得到不同的。總和:現在做兩個實驗。在實驗1中,假設,。在實驗2中,假設,。表3.1SRF的實驗決定法選擇哪一組的值?第1個實驗的值比第2個實驗的值給出一個更低的。所以說第1個實驗的更優。如何知道最優?E.g.做許多次實驗,每次選擇不同的值,然后比較所得的,并從中選擇給出最可能小的值的那組值。花費大量時間。
最小二乘法給出了簡便的運算。普通最小二乘法(ordinaryleastsquares,OLS)的基本思想——使樣本回歸函數盡可能好地擬合樣本數據最小二乘法以表示被解釋變量的估計值與實際觀察值的偏差總體上最小。雙變量情形下即是求得(4-1)根據微積分中求極限的原理,要使式(4-1)達到最小,式(4-1)對、
的一階偏導數應等于0,即(4-2)整理得
(4-3)解得(4-4)這就是參數、的普通最小二乘估計量(ordinaryleastsquaresestimators)方程組(4-3)稱為正規方程組(normalequations)。記(之后都遵循一個慣例,小寫字母表示對均值的離差)式(4-4)可改寫為(4-5)稱為參數、的普通最小二乘估計量的離差形式(deviationform)樣本回歸線通過Y和X的樣本均值一旦從樣本數據得到OLS估計值,便容易畫出樣本回歸線,這樣得到的回歸線有如下性質:它通過Y和X的樣本均值。這是從(4-5)顯見的事實,該式可寫成估計的均值等于實測的Y均值。因為:將最后一個等式兩邊對樣本值求和并除以樣本大小n,即得:這里利用了等式。(Why?)殘差的均值等于0。由(4-2),第一個方程是:因為故上述方程化為,從而。
4.殘差和解釋變量不相關,即5.殘差和預測的值不相關,即(離差形式)按照離差形式,SRF可寫成:利用離差形式可以推出:
例1
對于消費函數,若已知:
n=10,=23,=20
則有因而例2
設Y和X的5期觀測值如下表所示,試估計方程
Yt=
+
Xt+ut
序號
12345Yt1418232530Xt
1020304050
解:我們采用列表法計算。計算過程如下:序號YtXtyt=Yt-xt=Xt-xtytxt211410-8-2016040021820-4-1040100323301000425403103010053050820160400n=5110150003901000表4-1二、最小二乘法的基本假定如果我們的目的僅僅是估計和,則OLS法足夠用。但回歸分析的目的不僅僅是獲得和,還要對真實的和做出推斷,即判斷它們離總體值有多接近,或者說與其期望值有多接近。
PRF表明Yi
依賴于Xi
和ui
。因此,我們需明確Xi
和ui
是怎樣產生的,為了回歸估計的有效解釋,對Xi
變量(一個或多個)和誤差項ui
做出假定是極其重要的。假定1:線性回歸模型。回歸模型對參數而言是線性的,如假定2:在重復抽樣中X值是固定的。再重復的樣本中,回歸元所取的數值被認為是固定的。說的更專業些,假定X是非隨機的。
如第3章中的例子,考慮表2.1中各收入水平對應的各個Y總體,把收入值X固定在80美元的水平上,隨機抽取一個家庭,并觀測到它的周家庭消費支出Y為60美元。仍然把X固定在80美元,而隨機的另抽取一個家庭并觀測到它的Y值為75美元。在每次抽取即重復抽樣的過程中,X值都固定在80美元。可以對表中的全部X值重復這一過程。假定3:干擾項ui
的均值為零。對給定的X值,隨機干擾項ui
的均值或期望值為零,專業地講,ui
的條件均值為零,符號上記為:
假定3的幾何意義可由圖3.3描繪出來。圖中顯示了變量X的幾個值以及與每一X值相對應的一個Y總體。
如圖所示,對應于給定的X,每一個Y總體都是圍繞其均值分布的;一些Y值位于均值之上,一些Y值位于均值之下。離開均值的上方和下方的距離就是ui
。
這一假定意味著凡是模型不含的因而歸屬于u的因素,對Y的均值都沒有系統的影響,正的ui
值抵消了負的ui
值,以致它們的平均影響為零。圖3.3干擾項ui
的條件分布假定4:同方差性或ui
的方差相等。給定X值,對所有的觀測,ui
的方差都是相同的。就是說ui
的條件方差是恒定的,用符號表示:
對于每個u的條件方差都是某個等于的正常數。用專業術語說,上式代表同方差性(homoscedasticity)或者說相同的散步或相等的方差。這意味著,對應于不同X值的Y總體均有同樣的方差。如下圖:圖3.4同方差性圖3.4異方差性圖3.5表示Y總體的方差隨X而變。這種情形的相應名稱是異方差性(heteroscedasticity)或者說非相同的散布(unequalspread)或非相等的方差(variance)。用符號表示:注意下標i,它表示Y總體的方差不再是恒定不變的了。區分同方差性和異方差性:令Y代表每周消費支出,X代表每周收入。圖3.4和3.5都表示隨著收入增加,平均消費支出也增加。但在圖3.4中,消費支出的方差在所有的收入水平上都保持不變,而在圖3.5中,這個方差隨著收入的增加而增加,換句話說,富有的家庭比貧窮的家庭平均消費更多,但前者的消費支出也有更大的變異。假定4意味著Y的條件方差也是同方差的,就是說:假定5:各個干擾項之間無自相關性。給定任意兩個X值:Xi
和Xj
(ij),ui
和uj
之間的相關性為零,i和j為兩次不同的觀測,用符號表示:假定5即是設定ui
和uj
不相關。用專門術語來說,這是無序列相關(noserialcorrelation)或無自相關(noautocorrelation)。即是不會表現出如下圖(a)和圖(b)的模式。圖(a)中u值是正相關的,即正(負)的u伴隨著正(負)的u。圖(b)中u值是負相關的,即正(負)的u伴隨著負(正)的u。在第12章例,我們將透徹的解釋這一假定的全部涵義。直觀上,我們可以對此假定做如下解釋:設想我們的中,ut
和ut-1
正相關,那么Yt
不僅依賴于Xt
,而且依賴于ut-1
,因為ut-1
在一定程度上決定了ut
。所以現階段我們討論假定5,就是說我們只考慮Xt
對Yt
的系統性影響和是否有影響,而不去擔心由于u之間的可能的交互相關而造成的其他可能作用于Y的影響。假定6:ui
和Xi
的協方差為零,或。形式上:假定6是說,干擾u和解釋變量X是不相關的。當我們把PRF表述為
時,我們假定了X和u對Y有各自的并且可加的影響。但若X和u是相關的,就不可能評估它們各自對Y的影響。例如,若X和u正相關,則當u增加時X也增加,而當u減小時X也減小。要分開X和u對Y的影響都是困難的。如果X是非隨機的,并且有假定3干擾項ui
的均值為零,假定6就自動得到滿足。
我們已經假定X變量不僅是非隨機的,而且在重復樣本中取固定值,故假定6對我們來說并不是關鍵性的假定。這里只是為了表明,即使這些X是隨機的,只要它們獨立于干擾項ui
或至少與ui
無關,下面講的回歸理論就是真實的。假定7:觀測次數n必須大于待估計的參數個數。另一種說法是,觀測次數n必須大于解釋變量的個數。不妨設想我們只有一對Y和X的觀測值,則無法估計兩個未知數。假定8:X值要有變異性。在一個給定的樣本中,X值不可以全是相同的,即var(X)必須是一個有限的正數。試想,如果全部X值都相同,則。則無法估計β。直觀上,如果家庭收入很少變動,我們就不怎么能解釋消費支出的變化。變量必須在變!假定9:正確地設定了回歸模型。另一種說法是,在經驗分析中所用的模型沒有設定偏誤(specificationbiasorerror)。在模型的設定中出現的一些重要問題包括:(1)模型應包括哪些變量?(2)模型的函數形式為何?它是不是對參數,對變量或對兩者為線性?(3)進入模型的Yi
,Xi
和ui
要做些什么概率上的假定?例如,菲利普斯曲線假設選擇兩個模型去描述貨幣工資變化率和失業率的理論關系:回歸模型1對參數和變量都是線性的,回歸模型2則對參數為線性,對變量X為非線性。假如回歸模型1是“正確”模型,則模型2在A、B兩點間高估了真實的Y均值。除了在選擇模型時需要做出判斷,假定9還為了提醒我們,回歸分析以及由分析得到的結果,是以所選的模型為條件的,從而警醒我們,在建立計量經濟模型時必須十分審慎,特別是對某些經濟現象常存在多種有爭議的理論。
計量經濟的模型構造,與其說是一門科學,不如說是一門藝術。假定10:沒有完全的多重共線性。就是說,解釋變量之間沒有完全的線性關系。當模型中含有多個回歸元的時候,我們增補這樣一個假定。三、最小二乘估計的精度或標準誤差由方程(4-5)可見,最小二乘估計是樣本數據的函數。但因數據會從一個樣本變到另一個樣本,估計值也會隨之改變。因此需要有關估計量的“可靠性”或精密度的某種度量。在高斯的假定下,OLS估計量的標準誤差可求得如下:其中根據高斯的假定有,所以除以外,OLS估計量的標準誤差均可從數據中估計出來,由下列公式來估算:其中是真正的但未知的的OLS估計量,n-2被稱為自由度(numberofdegreesoffreedom,df)的個數,則表示殘差平方的總和或剩(殘)余平方和(residualsumofsquares,RSS)。一旦獲知,就容易算出。可利用下式:或者從下式:因為由于故計算的另以表達式是:另外,的正的平方根稱為估計的標準誤(standarderrorofestimate),通常用于衡量所估計的回歸線的“擬合優度”(goodnessoffit).
注意:
和的方差有如下特點。的方差與成正比,而與成反比。給定,X值的變化越大,的方差越小,從而得以更大的精密度加以估計。而且對給定的,方差越大,的方差也越大。注意,隨著樣本容量n的增大,總和中的項數將增加,的估計的精密度也將增加。的方差與和成正比,而與和樣本大小成反比。四、最小二乘估計量的性質:高斯-馬爾可夫定理高斯-馬爾可夫定理:在給定經典線性回歸模型的假定下,最小二乘估計量,在無偏線性估計量一類中,有最小方差,則說它們是最優線性無偏估計量(bestlinearunbiasednessestimator,BLUE)一個估計量,比方說,是的最優線性無偏估計量,滿足下列條件:它是線性的,即它是一個隨機變量,如回歸模型中的因變量Y的線性函數。它是無偏的,即。它在所有這樣的線性無偏估計量中有最小方差;有最小方差的無偏估計量叫做有效估計量(efficientestimator)。證明OLS估計量是BLUE。線性性。這說明是Yi
的一個線性函數;它是以ki
為權數的Yi
的一個加權平均,從而它是一個線性估計量。同理也是一個線性估計量。無偏性。將帶入上式得:兩邊求期望并注意到ki
是非隨機的,即可視同為常數,于是:因此是的一個無偏估計量。同理可證是的一個無偏估計量。3.最小方差性。定義的另一線性估計量如下:其中權wi
不一定等于ki,于是:為要無偏,必須:且上式中的最后一項是常數,只能通過第一項的處理使之最小化。令:則這就是說,當wi=最小二乘ki
時,線性估計量的方差等于最小二乘估計量的方差,不然的話。也就是說如果存在的一個最小方差線性無偏估計量,那么它必定是最小二乘估計量。五、判定系數r2
:擬合優度的一個度量擬合優度(goodnessoffit),是要判斷樣本回歸線對數據擬合得有多么好。判定系數r2
(雙變量情形)或R2(多變量情形)就是告訴人們這條樣本回歸線對數據的擬合有多么好的一個總度量。維恩圖(Venndiagram)在維恩圖中,圓圈Y代表因變量Y的變異,圓圈X代表解釋變量X的變異。(變異指一個變量對其均值的離差平方和)
兩圓圈重疊部分代表Y的變異可由X的變異來解釋的程度。重疊的程度越大,Y的變異被X解釋得越多。r2
是這一重疊的一個數值度量。
在無重疊時,r2
為0;若全部重疊,r2
為1,此時Y的變異百分之百的被X解釋了。
下面簡單的展示,r2
落在0和1之間。回顧寫成離差形式兩邊平方并對樣本求和,得:因為總平方和(TotalSumofSquares,TSS),實測的Y值圍繞其均值的總變異。解釋平方和(ExplainedSumofSquares,ESS),估計的Y值圍繞其均值的變異,或者說由回歸解釋的平方和。殘差平方和(ResidualSumofSquares,RSS),殘差圍繞回歸線的Y值的變異。來自殘差來自回歸圖3.10Yi
的變異分解成兩個部分總離差現用TSS除等式兩邊得:定義或者寫成如上定義的r2
稱之為判定系數,r2
測度了在Y的總變異中由回歸模型解釋的那個部分所占的比例或百分比。r2
有兩個性質:它是一個非負量。它的界限是。
等于1的r2
意味著完美的擬合,對每個i都有;
等于0的r2
意味著回歸值與回歸元之間無任何關系,即
這時,回歸線平行于X軸。可利用下式簡便求得:
和
分別是Y和X的樣本方差。由于結合上面討論過的ESS和RSS:樣本相關系數它測出兩個變量之間的關聯度。樣本相關系數的性質:r可正可負。它落在極限-1和+1之間,。它有對稱性;即X與Y的相關系數和Y與X的相關系數相同。它與原點和尺度無關。令,,其中a>0,b>0,c,d是常數,則與之間的r和X與Y之間的r相同。如果X與Y統計上獨立,則它們之間的相關系數為零。但零相關并不一定意味著獨立性。6.它僅是線性關聯或線性相依的一個度量;它不能用于描述非線性關系。
在回歸分析中,r2
是一個比r更有意義的度量,因為r2
告訴我們在因變量的變異種解釋變量解釋的部分占怎樣一個比例,因而對一個變量的變異在多大程度上決定另一個變量的變異,提供了一個總的度量。。而r沒有這種價值。r2還可作為實測的Y與估計估計的Y之間的相關系數的平方來計算。(離差形式)這也解釋了為什么把r2
描述為擬合優度的一個度量,這是因為它告訴我們Y的估計值和它的真實值相距多近。例子在導論中討論過凱恩斯消費函數:人們隨著他們收入的增加而傾向于增加其消費,但不如收入增加的那么多。
假定消費支出-收入的關系是線性的,如下:表3.2每周家庭消費支出Y和每周家庭收入X的假想數據YXYX7080115180651001202009012014022095140155240110160150260利用Eviews得出結果File/Open/ForeigndataasworkfileQuick/EstimateEquation或者lsycxDependentVariable:YMethod:LeastSquaresDate:03/26/12Time:10:26Sample:110Includedobservations:10
VariableCoefficientStd.Errort-StatisticProb.C24.454556.4138173.8127910.0051X0.5090910.03574314.243170R-squared0.962062Meandependentvar111AdjustedR-squared0.957319S.D.dependentvar31.42893S.E.ofregression6.493003Akaikeinfocriterion6.756184Sumsquaredresid337.2727Schwarzcriterion6.816701Loglikelihood-31.7809Hannan-Quinncriter.6.689797F-statistic202.8679Durbin-Watsonstat2.680127Prob(F-statistic)0.000001
圖3.12根據表3.2得到的樣本回歸線解釋:回歸線上的每一點都給出選定的X值相對應的Y期望值或均值的一個估計值;即是的估計值。
代表回歸線的斜率的,表示在80美元到260美元這個X的樣本范圍內,X每增加1美元,平均消費支出估計增加0.51美元。
代表回歸線的截距的,表示每周收入為零時的每周消費支出的平均水平。在回歸分析中,對截距項的字面解釋也許沒什么意義,需要借助常識來解釋截距項。r2值等于0.9621是說,約有96%的每周消費支出的變異,能由收入來說明。相關系數為0.9809表明消費支出和收入兩個變量是高度正相關的。例3.1美國消費-收入關系,1982-1996表I.1Y(個人消費支出)和X(國內生產總值)數據,均以1992年10億美元為單位年份YX19823081.54620.319833240.64803.719843407.65140.119853566.55323.519863708.75487.719873822.35649.519883972.75865.219894064.6606219904132.26136.319914105.86079.419924219.86244.419934343.66389.6199444866610.719954595.36742.119964714.16928.4DependentVariable:YMethod:LeastSquaresDate:03/26/12Time:11:05Sample:19821996Includedobservations:15
VariableCoefficientStd.Errort-StatisticProb.C-184.07846.26198-3.979030.0016X0.7064080.00782790.247070R-squared0.998406Meandependentvar3964.087AdjustedR-squared0.998284S.D.dependentvar489.6614S.E.ofregression20.28525Akaikeinfocriterion8.981231Sumsquaredresid5349.39Schwarzcriterion9.075638Loglikelihood-65.3592Hannan-Quinncriter.8.980226F-statistic8144.534Durbin-Watsonstat2.08183Prob(F-statistic)0
方程(3.7.1)是總量(對整個國家而言)凱恩斯消費函數。邊際消費傾向約為0.71,它表明如果收入增加1美元,平均個人消費支出約上升0.71美元。按凱恩斯理論,MPC小于1。對截距項的解釋通常沒有多少經濟意義。r2
的值為0.9884,意味著平均個人消費支出變化的99%都可由GDP的變化來解釋。由于非常接近1,可以說,回歸線對數據擬合的非常好。如圖所見,實際數據點十分密集的散布在估計的回歸線周圍。例3.2印度的食物支出觀測食物支出總支出觀測食物支出總支出觀測食物支出總支出12173822038361638450720219638821315618394157213303391222676234054073042704152342062741360731532545624300630424507336260460254106354339574573004722622064044430751832547827403648453327529336494283506504639775210345516293906554744676911325525303856624848077312362554314706634935277313315575323226775041077514355579335406805138078515325585344336905261078816370586352956955353079017390590363406955436079518420608375006955530580119410610DependentVariable:FOODEXPMethod:LeastSquaresDate:03/26/12Time:13:00Sample(adjusted):155Includedobservations:55afteradjustmentsVariableCoefficientStd.Errort-StatisticProb.C94.2087850.856351.8524490.0695TOTALEXP0.4368090.0783235.5770470R-squared0.369824Meandependentvar373.3455AdjustedR-squared0.357934S.D.dependentvar83.4351S.E.ofregression66.85575Akaikeinfocriterion11.27864Sumsquaredresid236893.6Schwarzcriterion11.35163Loglikelihood-308.163Hannan-Quinncriter.11.30686F-statistic31.10345Durbin-Watsonstat2.083299Prob(F-statistic)0.000001
如果總支出增加1盧比,那么平均食物支出將增加44派沙(1盧比=100派沙)。如果總支出為零,則平均的食物支出為94盧比。同樣,對截距項的這種機械解釋可能沒有意義。但在本例中,人們可以認為,即使總支出為零(e.g.失業),人們仍可能通過借貸或動用儲蓄來在某個最低水平維持食物支出。r2
的值約為0.37表明,食物支出變動中37%由總支出來解釋。看上去這是一個相當低的值,但后面我們可以看到,在橫截面數據中,通常獲得低r2
值都可能是因為樣本單位的分散性所致。例3.3平均小時工資與受教育水平之間的關系表2.6小時工資與受教育水平讀書年數工資均值,美元人數64.4567375.77585.97871597.331712107.318217116.584427127.8182218137.8351371411.0223561510.6738131610.8361701713.615241813.53131如回歸結果所示,受教育水平和工資之間存在正相關聯系,這是一個無足為奇的結論。每多讀1年書,平均小時工資約增加72美分。r2
表明,平均小時工資變化中約91%可由受教育水平來解釋。對橫截面數據而言,這么高的相當不同尋常。六、關于蒙特卡羅實驗的一個注記在經典線性回歸模型的假定下,最小二乘估計量有某些良好的、可歸結為BLUE性質的統計特性。但實際上我們怎樣才能知道這一BLUE性質是否成立?比如,怎樣能知道OLS估計量是否無偏?蒙特卡羅實驗,一種計算機模擬或抽樣實驗法,也許能提供這一答案。考慮雙變量總體回歸函數:蒙特卡羅實驗的程序如下:1.假定參數有如下真值:和。2.選定樣本大小,比方說,n=25.3.每次觀測固定一個X值,這樣共有25個X值。4.從一張隨機數表選出25個數值,且稱它們為ui
。
(在Eviews里可用nrnd函數,seriesu=nrnd)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安徽科技學院《攝影基礎》2023-2024學年第一學期期末試卷
- 金陵科技學院《外科學(一)》2023-2024學年第一學期期末試卷
- 武漢城市學院《園林快題設計》2023-2024學年第一學期期末試卷
- 沈陽城市建設學院《橋梁模型試驗》2023-2024學年第一學期期末試卷
- 電子技術基礎試題及答案
- 初中數學奧賽試題及答案
- 上海財經大學《遙感導論》2023-2024學年第一學期期末試卷
- 湖南民族職業學院《水工建筑物(上)》2023-2024學年第一學期期末試卷
- 浙江藝術職業學院《醫學美容護理》2023-2024學年第一學期期末試卷
- 浙江越秀外國語學院《數據分析》2023-2024學年第一學期期末試卷
- 唐山購房協議模板
- 旅拍運營方案
- 國開 電大《政治學原理》形考測試一答案
- 高中化學乙醇教學反思
- 如皋市直屬機關遴選筆試真題
- 2022-2023學年山東省濟南市高一下學期期末數學試題(解析版)
- 2022-2023學年安徽省阜陽市高一下學期期末教學質量統測數學試卷(解析版)
- 華東師大版數學七年級上冊教案全冊
- 醫患之間暴力行為預防與處理管理制度
- 2022年版初中物理課程標準解讀-課件
- MOOC 大學物理實驗-鄭州大學 中國大學慕課答案
評論
0/150
提交評論