




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第五章 多元線性回歸模型在第四章中,我們討論只有一個解釋變量影響被解釋變量的情況,但在實際生活中,往往是多個解釋變量同時影響著被解釋變量。需要我們建立多元線性回歸模型。一、多元線性模型及其假定多元線性回歸模型的一般形式是令列向量x是變量xk,k=1,2,的n個觀測值,并用這些數據組成一個nK數據矩陣X,在多數情況下,X的第一列假定為一列1,則1就是模型中的常數項。最后,令y是n個觀測值y1, y2, , yn組成的列向量,現在可將模型寫為:構成多元線性回歸模型的一組基本假設為假定1. 我們主要興趣在于對參數向量進行估計和推斷。假定2. 假定3. 假定4. 我們假定X中不包含的任何信息,由于 (
2、1)所以假定4暗示著。(1)式成立是因為,對于任何的雙變量X,Y,有E(XY)=E(XE(Y|X),而且這也暗示 假定5 X是秩為K的nK隨機矩陣這意味著X列滿秩,X的各列是線性無關的。在需要作假設檢驗和統計推斷時,我們總是假定:假定6 二、最小二乘回歸1、最小二乘向量系數采用最小二乘法尋找未知參數的估計量,它要求的估計滿足下面的條件 (2)其中,min是對所有的m維向量取極小值。也即 (3)滿足(2)式或(3)式的估計量稱為的最小二乘估計,這種求估計量的方法稱為最小二乘法(OLS)。展開上式得或最小值的必要條件是設b是解,則b滿足正則方程組這正是我們曾分析的最小二乘正則方程組。因為X是滿秩的
3、,所以的逆存在,從而得到解是為了證實這確實是最小值,我們需要二階編分矩陣是一個正定矩陣。我們現在來證明這個結果。對任意一非零向量c,令,則除非的每一元素都為0,否則q是正的。但若為零的話,則X的各列的一個線性組合等于0,這與X滿秩的假定相矛盾。三、最小二乘估計量的統計特性在本節中,我們對回歸量的兩種情況,即非隨機回歸量和隨機回歸量下分別作討論。1、X非隨機回歸量若回歸量當作非隨機來進行處理時,則將X當作常數矩陣處理就可導出最小二乘估計量的各種特性。可得 (4)若X是非隨機的,或,則(4)中第二項的期望值是0。所以,最小二乘估計量是無偏的,它的協方差矩陣是 在前面的內容中,對K=2的特殊b是的最
4、小方差的線性無偏估計量。現在我們給出這個基本結果的一個更一般的證明,令的另一個不同于b的線性無偏估計量,其中C是一個Kn矩陣。若是無偏的,這暗示著CX=I,并且。所以可以得到的協方差矩陣是現在令,由假設知D0。那么, 于是是非負定矩陣。則 在展開這個四項和式之前,我們注意到由于上面最后一項是I,有DX=0,所以 的方差矩陣等于b的方差矩陣加上一個非負定矩陣。所以,的每個二次型都大于的相應二次型。利用這個結果可以證明高斯-馬爾科夫定理:高斯馬爾科夫定理: 對任意常向量w,古典線性模型中的最小方差線性無偏估計量是,其中b是最小二乘估計量。2、X隨機回歸量在這樣的情況下,為了得到最小二乘估計量特性更
5、多的一般性,有必要將上面的結果推廣解釋變量X是來自某種概率分布的情況中去。獲得b的統計特性的一個方便的方法是,首先,第一步求得對X的條件期望結果,這等同于非隨機回歸量的情況,第二步,通過條件分布得到無條件結果。此論點的關鍵是,如果我們對任意X都可能得到條件無偏性,我們就可以得到一個無條件結果。因為 所以,以觀測到的X為條件我們得到一個有用的方法是利用重期望定律 因為由假定4有,所以,b也是無條件無偏的,這樣,。同樣,以X為條件的b的方差是為了求得確切的方差,我們使用方差分解公式:由于對所有X,所以第二項為零,因此,我們原來的結論要稍作改變,我們必須用其期望值E(XX)-1來代替原來以得到適當的
6、協方差矩陣。從上一段的結果可以合乎邏輯地建立高斯馬爾科夫定理,即對任何,在X給定的條件下有但若這一不等式對一特定X成立,則必須成立:即,若它對每一特定X成立,則它一定對X的平均值也成立。這暗示,。所以,不論我們是否將X看作是隨機的,即無偏性和高斯馬爾科夫定理都成立。四、最小二乘估計量的統計推斷迄今為止,在我們任一結果還未用到的正態性的假定6,但這一假定對構造假設檢驗的統計量是有用的和必須的。1、回歸系數的假設檢驗我們先討論X非隨機變量時的情況。在(4)中,b是干擾向量的一個線性函數,如果我們假定服從多重正態分布。利用前面結果及前邊推導的均值向量和協方差矩陣來表示即這是一個多重正態分布,所以b的
7、每一元素的邊際分布都是正態分布的:令是的第k個對角元素,則 (5)服從標準正態分布。若的統計推斷可以基于。然而仍要估計,所以(5)式中Zk不是統計量。我們要得到的無偏估計量,才能作進一步的推斷。按定義最小二乘殘差向量是 M是回歸分析中一個基本的nn矩陣,你可以容易地驗證M既是對稱的(M=M)又是冪等的(M=M2)。性質1:Xe=0和ie=0證明:由正則方程組,我們得到: 所以, ie=0由性質1及證明過程我們得到兩個推論:推論1:和MX=0。推論2:和Mi=0。推論2成立是因為X的第一行是(1,1,,1)。性質2:e和b互不相關。 從幾何解釋來看這一性質是顯然的,e表示Y到子樣空間的垂線估計量
8、,和e互相垂直。性質3:殘差e的均值向量和協方差陣分別是證明: E(e)=0,暗示是y的無偏估計量。性質4:證明:最小二乘殘差是,這是由于MX=0,的一個估計量將基于殘差平方和:這個二次型的期望值是我們有 由于M是固定的,這就是M的跡是 所以,的一個無偏估計量是 (6)回歸的標準誤差是s2,其平方根為s。利用s2,我們可以計算估計量b的估計協方差矩陣:通過利用s2替代,我們導出替代(5)中zk的一個統計量。此量是一個標準正態向量的冪等二次型,所以,它服從自由度為秩(M)=跡(M)=nK的x2分布。(6)中的x2分布變量獨立于(4)中的標準正態變量,為了證明這一點,只要證明 (7a)獨立于就足夠
9、了。我們知道標準正態向量x的一個線性式Lx和一個冪等二次型xAx獨立的充分條件是LA=0,令等x,我們發現這里所需求的是。這確實成立,因為。在推導回歸分析中許多檢驗統計量中起中心作用的一般性結果是:若服從正態分布,最小二乘系數估計量b統計獨立于殘差向量e及包括s2在內的e的所有函數。所以,比率 (7)服從自由度為(nK)的t分布。這是我們作統計推斷的基礎。線性約束檢驗我們通常對含有不只一個系數的假設檢驗感興趣,我們可以利用一個類似于(7)中的檢驗統計量。假定我們的假設是,(通常某些r將為零)左邊的樣本估計是若顯著異于q,則我們推斷樣本數據與假設不一致。與(7)一樣,將假設基于下式是很自然的。
10、(7a)我們需要的標準誤差的一個估計。由于是b的一個線性函數,且我們已估計出了b的方差矩陣,我們可用下式估計的方差。(7)中的分母是這個量的平方根。若假設是正確的,我們的估計應該反映這一事實,至少在抽樣變化性的范圍內如此。這樣,若前邊的t比率的絕對值大于適當的監界值,則應對假設產生懷疑。2、隨機X及正態下的檢驗統計量現在,我們考慮當X是隨機的,樣本檢驗統計量和推斷方法考慮(7)中檢驗的t統計量: (8)以X為條件,t|X服從自由度為(nK)的t分布。然而,我們感興趣的是t的邊際(即無條件)分布。正如我們所見,(7a)僅僅在以X為條件時b才是正態分布的,我們還沒有證明它的邊際分布是正態分布的。類
11、似地,當X是隨機的情況下,在給定X的條件下,我們得到了(8)式的t統計量,我們還沒有證明t邊際分布也是以(nK)為自由度的t分布。事實上,t的邊際分布仍是以(nK)為自由度的t分布,不論X的分布是什么,甚至不論X是隨機的還是非隨機的或者是混合的。這個令人迷惑的結果來自f(t|X)不是X的函數這一事實,同樣的原因可以用來推演不論X是不是隨機的,通常用以檢驗線性約束的F比率都是有效的。結論:若干擾項是正態分布的,我們可以在我們的過程中不加變化地進行檢驗和構造參數的置信區間,而不去考慮回歸量是隨機的、非隨機的,還是它們的混合。3、擬合優度和方差分析由方差分解公式,我們有:。我們用冪等矩陣M0來表示:
12、 所以,和進一步研究回歸平方和SSR與殘差平方和SSE,我們可以得到下面三個結論:a)在=0的假設條件下,回歸平方和服從自由度為K1的卡方分布x2(K1);b)殘差平方和服從自由度為nK的卡方分布x2(nK);c)在=0的假設條件下,服從F(k-1,nk)分布。證明:a)M0M是冪等矩陣。先證明M0M+MM0=2M。M0M+MM0=2M從而 所以,。在=0的假設條件下,才服從自由度為K1的卡方分布x2(K1)(為什么?)b)因為M是冪等矩陣而且c)只要驗證即可。事實上, 。和前一章的情況一樣,我們要對回歸模型的好壞,作出評價,決定系數就是對模型擬合的一個度量,計算R2有兩個等價的方法。決定系數
13、進一步推導和化解,我們可以得到R2另一個公式。,以及M0e=e(表示殘差已經具有零均值)和Xe=0。所以,第一個方法度量了y的總變差中由回歸變差所解釋的部分,第二個是y的觀測值和由估計的回歸方程所產生的預測值間的相關系數的平方。當利用R2來比較不同的線性統計模型的擬合度時,存在一個嚴重的缺點,就是它的值隨著解釋變量的增多而增大。為了克服這個缺點,我們可以用調整的R2來測度一個模型的解釋能力,這個調整的R2被記,它的表達式為 這里的無偏估計量,(思考:當y服從正態分布時,的一個無偏估計量)。不同的是,隨著解釋變量的增多,它的值可能變小,甚至要能取負值。因為所以,SSR=我們得到了回歸方差的另一個
14、表達式,請見多元線性回歸模型方差分析表。表1 多元線性回歸模型方差分析來源自由度均方回歸K1殘差nKs2總n14、回歸的顯著性檢驗一個通常要檢驗的假定是回歸方程作為整體的顯著性,這是對除了常數項外所有常數都為0的假設的聯合檢驗。若所有系數為0,則多重相關系數為0,所以我們可以將這一假定的一個檢驗基于R2值上。統計量服從自由度為K1和nK的F分布,檢驗的邏輯是,F統計量是對我們強加所有斜率都是0的這一約束時的擬合損失的一個度量(R2的全部),若F大,假設被拒絕。五、預測多元回歸環境下的預測結果與前一章中討論的那些本質是一樣的。假定我們希望預測與回歸向量x0相應的y0值。它將是(,且 i=1,n)
15、由高斯馬爾科夫定理知是y0的最小方差線性無偏估計量。個體預測(Individual Prediction)誤差是(,且 i=1,n)這個估計的預測方差是 若回歸含有一個常數項,一個等價的表達式是其中X是X的不包含全為1的列的最后K1列。這表明,和以前一樣,區間的寬度依賴于x0的元素與數據中心的距離。因此 又因為 由此得到 即y0的一個置信區間將用下式形成:預測區間。均值預測(Mean Prediction)均值預測是預測值是 而不考慮隨機干擾項。誤差是這個估計的預測方差是 因此 又因為 由此得到 即y0的一個置信區間將用下式形成:預測區間。六、分塊回歸和偏回歸當興趣實際上只集中于一個變量或變量
16、全集的一個子集時,設定一個多元回歸模型是很普遍的,但往往這個變量或變量全集的子集并不能很好地解釋被解釋變量,需要我們在原有的模型中添加新的解釋變量,才能進一步完善模型。例如考慮收入方程,雖然我們的主要興趣在于收入和教育的聯系上,將年齡包括進模型是必要的。我們已經證實從方程忽略年齡將是錯誤的,這里我們考慮的問題是,從一個多元回歸模型中單獨地獲取一個子集變量的系數涉及什么樣的計算,例如獲取前邊及回歸中教育的系數。以一般術語,假定原有回歸模型是,現在在原有的模型中添加新的解釋變量集X1,那么現在的回歸方程包括兩組變量和,轉換為: 的代數解是什么?與原有的估計量有何關系?新的模型的正則方程組是(1a)
17、(2a) 利用分塊逆矩陣可以得到另外一個方法是可以直接處理(1a)和(2a)以求解。我們首先從(1a)求得解 (9)(注意此解表明是對回歸的系數減去一個修正向量。)然后,將其代入(2a)得到整理各項后,解是 (10)注意出現在每個中括號中的小括號里的矩陣都是討論過的“殘差制造者”,這里是相應于對各列回歸的。這樣,是一個殘差矩陣,其中每一列都是中相應列對中各變量回歸的殘差向量。利用和一樣是冪等的這一事實,我們可將(10)重寫為 (11)其中 和 所以,是為來自一個回歸的系數集合,這個回歸的被解釋變量是單獨對回歸的殘差,解釋變量是的每一列分別對回歸所得殘差的集合。這個過程通常被稱作排除或篩掉的影響
18、。正是部分地由于這個原因,一個多元回歸中的系數通常被稱作偏回歸系數。我們可以用一個例子來說,通過首先用收入和教育對年齡(或年齡及年齡中平方)回歸,然后在一個簡單回歸中使用這兩個殘差,我們能夠得到教育在最小二乘回歸中的系數。這一方法的一個經典的應用中,費雪和沃(1933)注意到,在時間序列環境下,像剛才提到的那樣首先通過篩掉時間的影響而消除數據趨勢,然后用消除趨勢的數據簡單回歸和直接帶有一個時間趨勢變量似合所得結果是一樣的。1、偏回歸和偏相關系數使用多元回歸包含一個在實際中可能不能實施的概念性試驗,即類似于經濟學中的“假設其余情況均同”。繼續考慮簡介中的例子,將收入和年齡及教育相聯系的回歸方程使
19、我們能夠對兩個同齡但教育程度不同的人的收入進行比較,即使樣本中沒有這樣一對個人。術語偏回歸系數所暗示的正是回歸的這一特性。我們已經看到,獲取這個結果的方法是首先用收入和教育對年齡進行回歸,然后從回歸方程中計算出殘差,按其構造,年齡對解釋這些殘差沒有任何能力。所以,在這種“凈化”(或篩掉年齡的影響后)后的收入和教育間的任何相關都與年齡無關。同一原理可應用于兩個變量間的相關系數上。繼續我們的例子,當我們在樣本中得到收入和教育間的相關數為0.7時,那么,在何種程度上我們可以假定這一相關是由于某種直接關系,而非由于當人們變老時,收入和教育平均來說都趨于增長這一事實?為了找出答案,我們將使用偏相關系數,
20、這與偏回歸系數的計算方式一樣,在我們的例子中,抑制年齡的影響,收入和教育間的偏相關系數可如下獲取:1、收入對年齡的回歸中的殘差2、教育對年齡的回歸中的殘差3、偏相關系數就是和間的簡單相關系數。這似乎是一個可怕的計算量,然而存在一個方便的簡捷算法,一旦計算了一個多元回歸,(7)中用于檢驗系數等于0的比率,可用于計算 (12) 2、對均值的離差對常數回歸作為上一節結果的一個應用,考慮僅為中由1組成的第一列的這種情況,此時的解將是帶有常數項的回歸中斜率。令為由1構成的列,任何變量對的回歸的系數是,擬合值是,殘差是。所以,當我們將其應用于先前結果時,會發現:將數據轉換成對其均值的離差,然后用離差形式的
21、變量對同樣的離差形式的解釋變量回歸,可以得到含有常數項的多元回歸中的斜率。練習:若在計算斜率前忽略了將轉換為對的離差,在前邊的回歸中將會發生什么情況?得到了的系數后,怎么才能取得的系數?當然,一個方法是轉換和的角色重復上一節中的練習,但有一個更容易的方法,對一般情形,兩個正則方程組中的第一個是 我們已經解出了,所以,在求解時可以使用它: (13)若僅為一列,(13)中第一個將產生如下結果 (14)這我們以前已經見到過。七、偏離正態性的檢測(正態性的哈爾克-貝拉(Jarque-Bera)BJ檢驗)本節考察的是利用最小二乘殘差的矩來推斷真正擾動項的分布的一般問題。的直觀估計量是 然而,最小二乘殘差
22、只是真實擾動項的不完全估計: 由于,樣本越大,這個估計就越好。這有時被稱為逐點一致性。可以看出最小乘殘差的樣本收斂于真正擾動項的樣本。這意味著 是的一致估計量,也是的一致估計量,通常運用下列公式計算偏度(Skewness): (15)因為,對于對稱的概率密度函數,其三階矩為零,因為這樣的一個概率密度函數,其偏度為零。一個最重要的例子就是正態分布。如果偏度的值為正,則其概率密度為正偏或右偏;如果的值為負,則其概率密度為負偏或左偏。通常運用下列公式計算峰態(Kurtosis): (16)概率密度的峰度小于3時,成為低峰態的(胖的或短尾的),峰度大于3時,稱為尖峰態的(瘦的或長尾的),見圖1。正態分布的峰度為3,這樣的概率密度函數稱為常峰態的。樣本偏度與樣本峰度根據式(15)和式(16),用樣本三階矩和四階矩來計算樣本偏度與峰度。樣本三階矩(與樣本方差的計算公式相對照)為: (17)樣本四階矩為: (18)前述內容可用于設計正態性的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 投資分析與決策支持試題及答案
- 機械零件課程設計
- 2024年水利水電工程創新管理案例與試題及答案
- 行政管理中公共關系學的工具運用試題及答案
- 工程項目管理考試復習資料試題及答案
- 公共關系學考試復習要點試題及答案
- 目標明確的市政工程考試備考策略與試題及答案
- 公共關系中的輿情監測技術試題及答案
- 2025年公共關系學策略制定試題及答案
- 農村平房買房合同范例
- 林下經濟的開發與利用
- 基于PLC的校園照明智能控制系統設計畢業設計(論文)
- 2024年保密教育培訓考試(題目和答案)
- 山西建投集團考試真題
- DL∕T 1254-2013 差動電阻式監測儀器鑒定技術規程
- 足浴場所衛生管理要求
- 2024年遼寧省中考英語試題(附答案)
- 鍋爐安裝合同協議書
- 【必考題】中考初中三年級政治上模試題附答案
- DL-T5496-2015220kV-500kV戶內變電站設計規程
- DL-T5440-2020重覆冰架空輸電線路設計技術規程
評論
0/150
提交評論