第1章雙變量回歸分析_第1頁
第1章雙變量回歸分析_第2頁
第1章雙變量回歸分析_第3頁
第1章雙變量回歸分析_第4頁
第1章雙變量回歸分析_第5頁
已閱讀5頁,還剩45頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、經濟類核心課程計量經濟學powerpoint presentation by lu shiguang 2012 all right reserved, hunan institute of engineering第一章 雙變量回歸分析教師:盧時光1. 回歸分析的性質f.加爾頓(francis galton)發現,雖然有一個趨勢:父母高,兒女也高;父母矮,兒女也矮,但給定父母的身高,兒女輩的平均身高卻趨向于或者“回歸”到全體人口的平均身高。k.皮爾遜(karl pearson)證實了加爾頓普遍回歸定律。皮爾遜收集了1000多個家庭的身高記錄。他發現對于父輩高的群體,兒輩的平均身高低于他們的父輩,

2、而對于父輩矮的群體,兒輩的平均身高則高于他們的父輩。用加爾頓的話來說,就是“回歸到中等(regression to mediocrity)”。1.2 回歸的現代定義回歸分析是關于研究一個應變量對另一個解釋變量的依賴關系,其用意在于通過后者(在重復抽樣中)的已知或設定值,去估計和(或)預測前者的(總體)均值。回到加爾頓的例子:我們關心給定父輩身高,找出兒輩平均身高的變化。值得注意的是,隨著父輩身高的增加,兒輩平均身高也在增加。60 70 80父輩的身高(英寸)兒輩的身高(英寸)807060如左圖所示:注意對應任一給定的父輩的身高,都有一個兒輩身高的分布范圍。我們勾畫了一條通過這些散點的一條直線,

3、以表示兒輩平均身高如何隨父輩身高的增加而增加的。這條線我們稱為回歸線(regression line)。1.3 統計關系和確定性關系如上例中,我們不像經典物理學中考慮的那種變量之間的函數或確定性依賴關系。在回歸分析中,我們考慮的是一類所謂統計依賴關系。在變量之間的統計關系中,我們主要處理是隨機變量,也就是有著概率分布的變量。例如,作物收成對氣溫、降水、陽光及施肥的依賴關系是統計性質的。這個性質的意義在于:這些解釋變量固然重要,但是并不能夠使農業學家準確地預測作物的收成。一則這些變量的測量是有誤差的,二則還有一大堆影響到作物收成的變量,我們無法一一識別出來。1.4 回歸和因果關系雖然回歸分析是研

4、究一個變量對另一些變量的依賴關系,但它并不一定意味著因果關系。用肯達爾和斯圖亞特的話說:“一個統計關系式,無論多強也不管多么有啟發性,卻永遠不能確立因果方面的聯系,對因果關系的理念,必須來自統計學以外,最終來自這種或那種理論。”例如在諸多有趣的經濟指標中有一個“裙子長短指數”。這個指數用女性穿著裙子的長短來判斷經濟的好壞。當經濟不好時,失業率增加,女性就業更困難,短裙看起來能年輕、活力一些,有利于尋求新的職位。但是我們不能因此得到結論:在座的女生穿著短裙是因為經濟不好,或者因為在座的女生穿著短裙所以中國的經濟不好。從邏輯上說,統計關系式本身不意味著任何因果關系。1.5 數據的性質用于經濟分析的

5、數據有三類:時間序列、橫截面數據、和混合數據。時間序列:對一個變量在不同時期取值的一組觀測結果。例如隨著年份gdp的變換、上證綜合指數的每日變換等等。基于時間序列數據的計量分析,大多假定所依據的時間序列數據是平穩的(stationary)。粗略地來說,如果一組時間序列數據,它們的均值和方差在時間上沒有系統的變化,就是平穩的。要記住:每當你使用時間序列數據時,你都要問一問它的平穩性如何。橫截面數據:對一個或多個變量在同一個時點上收集的數據。例如2012年9月份,全國主要30個省份的生豬的產量和價格、全國每個高校2012屆大學生的就業率等等。橫截面數據也有其自身的問題,特別是異方差(heterog

6、eneity)的問題。有的省(湖南、江西)生產巨量的生豬,而有的省(北京和廣東)生產量很少。當我們的統計分析中包含有相異的單元時,我們必須考慮尺度效應,以避免把蘋果和桔子混同了起來。混合數據:兼有時間序列和橫截面數據。例如人口普查數據,從1980到2012年中國人口總量變化是時間序列,而2012年不同省市人口的分布則是橫截面數據。2. 雙變量回歸分析2.1 一個例子假定一個國家人口總體由60戶家庭組成,x表示家庭周可支配收入,y表示家庭周消費支出。x,每周家庭收入(美元)y,每周家庭消費支出8010012014016018020022024026055657980102110120135137

7、150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115191共計32546244570767875068510439661221將這60戶按照收入劃分為10組,分析每一組的家庭消費支出。對應每周收入在80美元的5戶,每周家庭消費支出在55到75美元不等。上表中,每一縱列給出的是在給定的收入水平x下的消費支出y的分布。就是說,它給出了以x為給定值條件下的y的條件分布。散點圖根據表格的數據制

8、成。現在,對于給定的x,例如x=80美元,有5個y值:55、60、65、70和75美元。因此給定x=80得到這些消費支出中任何一個概率是1/5。用符號來表示:對于y的每一條件概率分布,我們能夠計算出來它的均值,稱為條件均值或條件期望,記做e(y|x=xi),并讀作“在x取特定xi值時y的期望值”。給定x=80,y的期望或條件均值為:51)80|55(xyp6551755170516551605155回到散點圖中,我們更清楚的發現,雖然,每個家庭的消費支出都不相同,但隨著收入的增加,消費水平平均地說也在增加。觀測紅色的粗圓點代表的y的各個條件均值,這種察覺就更加的直觀和形象。散點圖表明,這些條件

9、均值都落在一個有正斜率的直線上。這個直線叫做總體回歸線。更簡單地說,它是y對x的回歸。在幾何意義上,總體回歸線就是當解釋變量取給定值時,應變量的條件均和或期望的軌跡。2.2總回歸函數(prf)從前面的討論中,我們清楚地看到,每一條件均值e(y|xi)都是xi的一個函數,用符號來表示:其中,f(xi)表示解釋變量xi的某個函數(在上例中, e(y|xi) 是xi的一個線性函數),我們把 稱為總體回歸函數(prf)或簡稱為總體回歸(pr)。它說明在給定的xi下,y的分布均值與xi有函數關系,或者,它表明了y的均值是怎樣隨x而變化的。prf的函數形式是一個經驗方面的問題,例如,經濟學家會提出消費和收

10、入有線性關系,這樣prf常常被寫作其中12為不知的參數,稱為回歸系數,也分別被稱為截距和斜率系數。)()|(iixfxye)()|(iixfxyeiixxye21)|(2.3 線性的含義對線性的第一種解釋是,y的條件期望是xi的線性函數,從幾何意義上來看,這時回歸曲線是一條直線。按照這種解釋,諸如e(y|xi)= 1+2+xi2回歸函數,變量x以指數2出現,就不是線性的。對線性的第二種解釋是,y的條件期望e(y|xi)是諸參數的一個線性函數,它可以是也可以不是x的線性函數。這樣e(y|xi)= 1+2xi2就算一個線性模型,而e(y|xi)= 1+22xi2則不是。在我們這里,我們認為“線性”

11、是對參數為線性的情形,因此,從現在開始“線性”一詞總是指對參數為線性的一種回歸(即參數總是以它的1次方出現);對解釋變量x則可以是或不是線性的。 e(y|xi)= 1+2xi和e(y|xi)= 1+2xi2都是線性回歸模型(lrm)。2.4 總回歸方程的隨機設定前面的例子中,隨著家庭收入的增加,家庭消費支出平均的也增加。但是對個單獨某個家庭來說,消費支出水平卻不一定隨收入水平增加而增加。例如,對應于每周100美元的收入水平,有一家庭的消費支出是65美元,而對應于收入80美元的兩戶家庭,消費支出為70和75美元。那么,在個別家庭的消費支出與給定的收入水平之間存在什么關系呢?我們在前面的分析中看到

12、,給定收入水平xi的個別家庭的消費支出圍繞在收入為xi的所有家庭的平均消費支出的周圍,也就是圍繞在它的條件均值。因此我們可以把個別家庭的yi圍繞在它的期望值的離差(deviation)表述如下:iiiiiixyeyxyey)/()/(或ui被稱為隨機干擾或隨機誤差項。給定x水平,個別家庭的支出可以表示為兩個成分之和(1) e(y|xi)代表相同收入水平的所有家庭的平均消費支出,這個成分被稱為系統性或確定性成分,以及(2) ui被稱為隨機的或非系統性的成分。也可以理解為ui是所有影響y的,但是沒能包含到回歸方程中的,被忽略變量的替代變量。方程: 表示一個家庭的消費支出,線性地依賴于它收入加上干擾

13、項。給定x=80,各個家庭的消費支出表達為:iiiiixxyey21)/(321322121211)80(65)80(60)80(55uyuyuy回到剛才的式子:現在,如果兩邊取期望,則:式中, e(y|xi)是條件期望,是一個常數,故ee(y|xi)就是它自身。而e(yi|xi)就是e(y|xi),故:因此,假定回歸線從y的條件均值通過,就意味著,ui的(以給定的xi為條件的)條件均值為零。iiixyey)/()|()/()|()/()|(iiiiiiiixexyexexyeexye0)|(iixe2.5 隨機干擾項的意義干擾項是從模型中沒有包含的而又集體地影響著y的全部變量的替代物。為什么

14、我們不構造一個包含盡可能多的變量的復回歸模型?理由如下:1.理論的含糊性;2.數據的欠缺;3.核心變量和周邊變量;4.人類行為的內在隨機性;5.“不好的”替代變量;6.節省的原則;7.錯誤的函數形式。為了所有上述理由,我們在隨后的學習中會發現,隨機干擾項在回歸分析中扮演了極其重要的角色。2.6 樣本回歸函數(srf)注意我們前面的例子中,我們假定一個國家是由60戶家庭組成的,故我們得到的是一個關于這60戶家庭收入和消費支出的完整的總體數據。在大多數實際情況下,我們僅有對應于某些固定的x的y值的樣本,這樣我們就必須面對抽樣問題,例如有下列兩組抽樣數據:y1y2x70558065881109090

15、1209580140110118160115120180120145200140135220155145240150175260問題:我們能夠從抽樣數據中預測整個總體中對應于給定的x的平均每周消費支出y嗎?將表中的數據描繪為散點圖:在散點圖中,我們畫了兩根樣本回歸線以盡量好的擬合這些散點。srf1是根據第一個樣本的數據,而srf2是根據第二個樣本的數據。那么,兩條回歸線中那一條代表“真實”的總體樣本回歸線?事實上,我們不可能有絕對把握知道哪一條代表了真實的總體回歸線。因為抽樣的波動,它們最多也不過是真實總體回歸線的一個逼近而已。一般的來說,從n個不同樣本中會得到n個不同的樣本回歸函數,并且這些

16、樣本回歸函數不大會一樣。類比總體回歸函數,我們能夠寫出一個代表樣本回歸線的樣本回歸函數(srf):這里 分別是y,1和2的估計量。iiixxfy21)(21,和y我們還能把srf表達為它的隨機形式:其中,除了定義過的符號外, 表示樣本殘差項。概念上, 類似于ui,并且可把它當做是ui的估計量,把它引入到srf中的理由和把ui引入prf中來,是出于同一個理由。至此,總的來說,回歸分析僅僅是依據某總體的一個樣本的時候比不是這樣的時候多。我們的主要目的是根據樣本回歸函數(srf):來估計總體樣本函數(prf):iiiiuxxfy)(21iu iu iiiuxy21iiixy21對于x=xi,我們有一

17、個觀測值y=yi。我們可以根據srf將所觀測的yi表達為:也可以根據prf,表達為:現在,對于圖中所示的xi, 明顯過高的估計了那里的真實的e(y|xi),類似的對于a點左側,srf低估了真實的prf,而右側則恰好相反。iiiuyyiiiuxyey)|(iy現在,重要的問題:既然認識到了樣本回歸函數不過是總體回歸函數的一個近似,能不能設計一種規則或方法,使得這種近似是一種盡可能“接近”的近似?盡管真實的總體回歸函數永遠不得而知。3. 雙變量回歸模型:估計問題3.1 普通最小二乘法原理回顧雙變量總體回歸函數(prf):這個prf不是直接可以觀測的。我們通過樣本回歸函數(srf)去估計它:這里,

18、是y的估計值(條件均值)。iiixy21iiiiiuyuxy21iy我們把式子改寫為:這樣殘差 不過是實際y值與估計值 之間的差。對于給定的y和x,我們希望樣本回歸函數(srf)能夠盡可能的接近實際的y,這樣我們采用如下原則:選擇這樣的srf,使得盡可能的小。 iiiiixyyyu21iu iy)(iiiyyu上述標準似乎很給力,但卻存在缺陷。因為在總和:中, 得到的權重和 一樣多,而顯然后兩者離樣本回歸線距離要遠得多。這樣可能所有的 都散布的很遠,但是 代數和卻很小(甚至為零)。為了避免這樣的問題,最小二乘準則要給出樣本回歸函數(srf),使得:盡可能小,其中 是殘差平方和。我們即將看到,它

19、得出來的估計量有很好的統計性質。很明顯,殘差平方和是關于估計量 的某個函數:)(4321uuuu1 u2 u3 u4 uiu iu 22122)()(iiiiixyyyu2iu),(212fui21和 的最小二乘估計其中,n是樣本大小。這組聯立方程被稱為正則方程。21和)()(整理后得到求偏導數,并令為零和最小,對上式分別對為求由方程:210)(2)(0)(2)()()(221212122211221222122iiiiiiiiiiiiiiiiiiixxxyxnyxxyuxyuuxyyyu解上述方程組:xyxnynxnyxnxnxxnyxnyxyxnyyyxxxyyxxnyxnxyyxyxny

20、xnyxnyxnyxnyxnyxnyxyxnynyxnxxxnyxyxnxxyxiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii22122222222222111)()(),()( )()()(1,1)() 1 ()2(故:同理:定義離差:注意:得到:帶入到可得:由最小二乘(ols)估計量的性質ols估計量是純粹由可觀測值(樣本值)表達的,因此這些量是容易計算的;這些量是點估計量,對于給定的樣本,每一估計量僅提供有關總體參數的一個值;從樣本數據得到ols估計值,很容易畫出樣本回歸線,這樣得到的樣本回歸線有如下性質(不證明):1.它通過x和y的樣本均值;2

21、.估計的y均值等于實測的y的均值;3.殘差 的均值為零;4.殘差 和預測的yi值不相關;5.殘差 和xi值不相關。iu iu iu 3.2經典線性回歸模型:最小二乘模型的基本假定如果我們的目的僅僅是估計 ,那么上節討論的ols就足夠了。事實上,我們不僅僅是要估算出 的值,而且要對真實的 推斷,我們想知道 離它的真期望值 有多近。為此,我們要對yi的產生方式作出某些假設。而 表明,yi是依賴于xi和ui。因此除非我們明確xi和ui是怎樣產生的,我們將無法對yi作出任何統計推斷,也就無法對 作出統計推斷。就是說,為了回歸估計的有效解釋,我們對變量xi和誤差項ui作出假定是極其重要的。21和iyii

22、ixy21)|(ixye21和21和21和我們在前面探討過線性的定義,在我們這里我們將始終堅持這一定義。假定假定1:線性回歸模型。回歸模型對參數而言是線性:線性回歸模型。回歸模型對參數而言是線性的。的。iiixy21我們關于總體樣本函數(prf)的討論中,隱含著這樣一個假定“重復抽樣中的固定值”。對它的理解很重要。回到我們最初的例子上:我們假定一個由60戶家庭組成,我們統計了這60戶家庭的收入x和家庭消費支出y的數據。這樣我們把收入值固定在80美元/周,隨機的抽取一個家庭,并觀測它的周家庭消費支出,例如說60美元;接著我們仍然把收入x固定在80美元/周,再隨機的抽取令一個家庭,觀測它的周家庭消

23、費支出為75美元。在每次抽取(重復抽樣)中,我們都把x值固定在80美元上,直到所有周收入為80美元的家庭統計完畢。事實上我們例子中的數據就是這樣產生的。所有的這些意味著,我們的回歸分析是條件回歸分析,就是以x給定值為條件的。假定假定2:在重復抽樣中:在重復抽樣中x值是固定的。值是固定的。假定假定3:干擾項:干擾項ui的均值為零。對于給定的的均值為零。對于給定的x值,值,ui的的條件期望(均值)為零,用公式來表達:條件期望(均值)為零,用公式來表達:其實,這個假定無非是告訴我們,凡是模型中沒有包含的,沒有被作為解釋變量的其他而被歸結為ui的因素,都不應該對y的均值產生系統性的影響。或者說,正的u

24、i和負的ui相互抵消了,以至于它們對y的平均影響為零。0)|(iixue對于每個ui的方差,都是某個等于2的正常數。意味著,對應于不同的x值的y總體均有相同的方差。圖3.4和3.5都表明了隨收入增加,平均消費水平增加。3.4中消費支出方差在所有的收入水平下保持不變,而3.5則變大。當x=x1時,消費水平平均地離prf更近,而x=x3時,消費水平圍繞prf分布更遠,顯然x=x1時的數據y對我們來說更可靠一些。假定假定4:同方差性或:同方差性或ui的方的方差相等。對于給定的差相等。對于給定的x值,值,對所有的觀測,對所有的觀測,ui的方差是的方差是恒定的。用公式來表達:恒定的。用公式來表達:2)|

25、var(iixu假定假定5:各個干擾項之間無自相關。給定任意兩個:各個干擾項之間無自相關。給定任意兩個x值:值:xi和和xj(ij),),ui和和uj之間的相關為零。用符號來表示:之間的相關為零。用符號來表示:用專業的術語來說,就是無序列相關無序列相關或無自相關無自相關。如果上述假定不成立,ut和ut-1存在相關關系,那么yt不僅僅取決xt而且還取決于ut,因為ut-1在一定程度上決定了ut。我們利用假定5,就是只考慮xt對yt的影響,而不去擔心u之間的可能到相關關系而對y產生的影響。00|(0|(),|)(|(| )(| )(),|,cov();)因為jjiijjiijjjiiijijixu

26、exuexuxuexueuxueuexxuu干擾u和解釋變量x之間是不相關的。如果x和u是相關的,例如x和u正相關,那么當u增加的時候x也增加。類似的,如果x和u負相關,則當u增加時x減少。我們將無法準確地區分x和u各自對y產生了什么樣的影響。假定假定6:ui和和xi的協方差為零。用符號來表示:的協方差為零。用符號來表示:00)(),()(),()()(0)(),()()(),cov(iiiiiiiiiiiiiiiiiiuexuexeuexexueuexexuexexueuexu因非隨機因因對于前例,如果我們只有一組x和y的觀測值,我們將無法從這一次觀測中去估計參數 ,對于兩個參數估計,我們至

27、少需要兩組數據。假定假定7:觀測次數:觀測次數n必須大于待估計的參數個數。必須大于待估計的參數個數。21和回到前面的公式中:如果全部的x值都相等,則xi= ,那么上式中的分母就為零,從而我們無法估計2,也就無法估計1。要把回歸當做一種工具來使用,y和x兩者均有變化是前提,換句話說,變量必須在變。22)()( )(xxyyxxiii假定假定8:x值要有變異性。在一個給定的樣本中,值要有變異性。在一個給定的樣本中,x值值不可以完全是相同的。不可以完全是相同的。x如果模型中漏掉了一些重要的變量,或者選擇了錯誤的函數形式,或者對所含變量作出了錯誤的隨機假定,那么我們就要質疑回歸的有效性。假定假定9:正

28、確地設定了回歸模型。另外一個說法是,:正確地設定了回歸模型。另外一個說法是,在經驗分析中所用的模型沒有設定偏誤。在經驗分析中所用的模型沒有設定偏誤。這一假設,我們將在后續的學習中加以解釋它的重要性。假定假定10:沒有完全的多重共線性。就是說,解釋變量:沒有完全的多重共線性。就是說,解釋變量之間沒有完全的線性關系。之間沒有完全的線性關系。3.3最小二乘估計的精度或標準誤差我們估算出來的 的“可靠性”或者精密度如何呢?在統計學上一個估計量的精密度是由它的標準誤(se)來衡量的。var方差,se標準誤,2是假定4中的ui的共同方差。21和221222122222)()var()()var(iiiii

29、ixnxsexnxxsex附 方差的推導21和2222222222221121212222222121222222222222221212222221)(,)var(0)(,)()22(,)()(,)()()var(10,)(00,0, )()(iiiiiijiinnnnnniiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiixxxxkkuuejiueiuukkuukkukukukeukeeeeexxxkkukukxkkuxkykxxxxkxxkxyxyxxnxxnxyyxxyyxyyxyx因且對于,根據假設,對于每一個利用上式的結果因方差的定義且因為已知,且

30、對于給定樣本且令因除了2以外,上述方程中的一切變量均可以從數據中估計出來,2由下面公式估算: 是真正的但未知的2的ols估計量,n-2被稱為自由度(df)的個數, 則表示殘差平方的總和或者剩余平方和(rss)。222nui22iu22222222222)(iiiiiiiiiiixyxyuxyxxyu注意 的方差,有如下特點: 的方差和2成正比,而與 成反比。就是說,給定的2,x值變化越大, 方差越小,從而2的估計精度越高。此外,隨樣本容量n的增加, 中的項數將增加, 2的估計精度隨n的增加而增加。 的方差與2和 成正比,而與 和樣本大小n成反比。最后,由于 是估計量,對于給定的樣本,它們還可能

31、是相互影響的。這種依賴性由它們之間的協方差來衡量。221222122222)()var()()var(iiiiiixnxsexnxxsex21和22ix22ix12ix2ix21和3.5 判定系數r2:“擬合優度”的一個度量如果所有的觀測點都落在樣本回歸線上,我們就得到了一個“完美”的擬合。但是這種情況很少發生。一般的是情形下,總有一些正的 和負的 。我們所能希望的僅僅是圍繞著回歸線的殘差盡可能的小。判定系數r2(雙變量情形)和r2(多變量的情況)就是告訴人們這條樣本回歸線對數據的擬合程度有多么好的一個總度量。iu iu 22222222220,2iiiiiiiiiiiiiiiiiiiuxxyuyuyuyuyyuyyuyy且因兩邊平方并對樣本求和寫成離差的形式rssesstssrssyessy)(tssy)(22222222這樣:);方和(值的變異,稱為殘差平回歸線的殘差或未被解釋的圍繞);平方和(稱為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論