多元線性回歸分析_第1頁
多元線性回歸分析_第2頁
多元線性回歸分析_第3頁
多元線性回歸分析_第4頁
多元線性回歸分析_第5頁
已閱讀5頁,還剩32頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多元線性回歸分析第1頁,共37頁,2022年,5月20日,13點37分,星期二3.1 多元線性回歸模型 一、多元線性回歸模型 二、多元線性回歸模型的基本假定 第2頁,共37頁,2022年,5月20日,13點37分,星期二 一、多元線性回歸模型 多元線性回歸模型:表現在線性回歸模型中的解釋變量有多個。 一般表現形式:i=1,2,n其中:k為解釋變量的數目,j稱為回歸參數(regression coefficient)。 習慣上:把常數項看成為一虛變量的系數,該虛變量的樣本觀測值始終取1。這樣: 模型中解釋變量的數目為(k+1) 第3頁,共37頁,2022年,5月20日,13點37分,星期二也被稱

2、為總體回歸函數的隨機表達形式。它 的非隨機表達式為: 方程表示:各變量X值固定時Y的平均響應。 j也被稱為偏回歸系數,表示在其他解釋變量保持不變的情況下,Xj每變化1個單位時,Y的均值E(Y)的變化; 或者說j給出了Xj的單位變化對Y均值的“直接”或“凈”(不含其他變量)影響。第4頁,共37頁,2022年,5月20日,13點37分,星期二二、多元線性回歸模型的基本假定 假設1,解釋變量是非隨機的或固定的,且各X之間互不相關(無多重共線性)。 假設2,隨機誤差項具有零均值、同方差及無序列相關性 假設3,解釋變量與隨機項不相關 假設4,隨機項滿足正態分布 第5頁,共37頁,2022年,5月20日,

3、13點37分,星期二3.2 多元線性回歸模型的估計 估計方法:OLS 一、普通最小二乘估計 二、參數估計量的性質 三、樣本容量問題 四、估計實例 第6頁,共37頁,2022年,5月20日,13點37分,星期二一、普通最小二乘估計對于隨機抽取的n組觀測值如果樣本函數的參數估計值已經得到,則有: i=1,2n根據最小二乘原理,參數估計值應該是下列方程組的解 其中第7頁,共37頁,2022年,5月20日,13點37分,星期二于是得到關于待估參數估計值的正規方程組: 第8頁,共37頁,2022年,5月20日,13點37分,星期二隨機誤差項的方差的無偏估計 可以證明,隨機誤差項的方差的無偏估計量為 第9

4、頁,共37頁,2022年,5月20日,13點37分,星期二 四、參數估計量的性質 在滿足基本假設的情況下,其結構參數的普通最小二乘估計、最大或然估計及矩估計仍具有: 線性性、無偏性、有效性。 同時,隨著樣本容量增加,參數估計量具有: 漸近無偏性、漸近有效性、一致性。 1、線性性 其中,C=(XX)-1 X 為一僅與固定的X有關的行向量 第10頁,共37頁,2022年,5月20日,13點37分,星期二 2、無偏性 這里利用了假設: E(X)=0 3、有效性(最小方差性) 第11頁,共37頁,2022年,5月20日,13點37分,星期二其中利用了 和第12頁,共37頁,2022年,5月20日,13

5、點37分,星期二 五、樣本容量問題 所謂“最小樣本容量”,即從最小二乘原理和最大或然原理出發,欲得到參數估計量,不管其質量如何,所要求的樣本容量的下限。 最小樣本容量 樣本最小容量必須不少于模型中解釋變量的數目(包括常數項),即 n k+1因為,無多重共線性要求:秩(X)=k+1第13頁,共37頁,2022年,5月20日,13點37分,星期二 2、滿足基本要求的樣本容量 從統計檢驗的角度: n30 時,Z檢驗才能應用; n-k8時, t分布較為穩定 一般經驗認為: 當n30或者至少n3(k+1)時,才能說滿足模型估計的基本要求。 模型的良好性質只有在大樣本下才能得到理論上的證明第14頁,共37

6、頁,2022年,5月20日,13點37分,星期二 六、多元線性回歸模型的參數估計實例 例3.3,投資函數模型-多元線性模型。解釋變量:時間 x1 1-16 實際GNP x2被解釋變量y:實際投資第15頁,共37頁,2022年,5月20日,13點37分,星期二Eviews軟件估計結果 Dependent Variable: YMethod: Least SquaresDate: 10/15/12 Time: 10:50Sample: 1968 1983Included observations: 16VariableCoefficientStd. Errort-StatisticProb. C-

7、0.4864630.053836-9.0359360.0000X1-0.0165930.001819-9.1226060.0000X20.6391170.05289612.082620.0000R-squared0.958362 Mean dependent var0.203750Adjusted R-squared0.951957 S.D. dependent var0.033061S.E. of regression0.007246 Akaike info criterion-6.849241Sum squared resid0.000683 Schwarz criterion-6.704

8、381Log likelihood57.79393 F-statistic149.6088Durbin-Watson stat1.313453 Prob(F-statistic)0.000000第16頁,共37頁,2022年,5月20日,13點37分,星期二3.3 多元線性回歸模型的統計檢驗 一、擬合優度檢驗 二、方程的顯著性檢驗(F檢驗) 三、變量的顯著性檢驗(t檢驗) 四、參數的置信區間 第17頁,共37頁,2022年,5月20日,13點37分,星期二 一、擬合優度檢驗 1、可決系數與調整的可決系數則 總離差平方和的分解第18頁,共37頁,2022年,5月20日,13點37分,星期二由于

9、=0所以有: 注意:一個有趣的現象第19頁,共37頁,2022年,5月20日,13點37分,星期二 可決系數該統計量越接近于1,模型的擬合優度越高。 問題: 在應用過程中發現,如果在模型中增加一個解釋變量, R2往往增大。 這就給人一個錯覺:要使得模型擬合得好,只要增加解釋變量即可。 但是,現實情況往往是,由增加解釋變量個數引起的R2的增大與擬合好壞無關,R2需調整。第20頁,共37頁,2022年,5月20日,13點37分,星期二 調整的可決系數(adjusted coefficient of determination) 在樣本容量一定的情況下,增加解釋變量必定使得自由度減少,所以調整的思路

10、是:將殘差平方和與總離差平方和分別除以各自的自由度,以剔除變量個數對擬合優度的影響:其中:n-k-1為殘差平方和的自由度,n-1為總體平方和的自由度。第21頁,共37頁,2022年,5月20日,13點37分,星期二第22頁,共37頁,2022年,5月20日,13點37分,星期二 二、方程的顯著性檢驗(F檢驗) 方程的顯著性檢驗,旨在對模型中被解釋變量與解釋變量之間的線性關系在總體上是否顯著成立作出推斷。 1、方程顯著性的F檢驗 即檢驗模型 Yi=0+1X1i+2X2i+ +kXki+i i=1,2, ,n中的參數j是否顯著不為0。 可提出如下原假設與備擇假設: H0: 0=1=2= =k=0

11、H1: j不全為0第23頁,共37頁,2022年,5月20日,13點37分,星期二 F檢驗的思想來自于總離差平方和的分解式: TSS=ESS+RSS 如果這個比值較大,則X的聯合體對Y的解釋程度高,可認為總體存在線性關系,反之總體上可能不存在線性關系。 因此,可通過該比值的大小對總體線性關系進行推斷。第24頁,共37頁,2022年,5月20日,13點37分,星期二 根據數理統計學中的知識,在原假設H0成立的條件下,統計量 服從自由度為(k , n-k-1)的F分布 給定顯著性水平,可得到臨界值F(k,n-k-1),由樣本求出統計量F的數值,通過 F F(k,n-k-1) 或 FF(k,n-k-

12、1)來拒絕或接受原假設H0,以判定原方程總體上的線性關系是否顯著成立。 第25頁,共37頁,2022年,5月20日,13點37分,星期二對于上海居民消費支出的例子: 一元模型:F=5216.478 二元模型:F=149.6088給定顯著性水平 =0.05,查分布表,得到臨界值: 一元例:F(1,21)=4.32 二元例: F(2,19)=3.52顯然有 F F(k,n-k-1) 即二個模型的線性關系在95%的水平下顯著成立。第26頁,共37頁,2022年,5月20日,13點37分,星期二 2、關于擬合優度檢驗與方程顯著性檢驗關系的討論 由可推出:與或第27頁,共37頁,2022年,5月20日,

13、13點37分,星期二在中國居民人均收入-消費一元模型中,在中國居民人均收入-消費二元模型中, 第28頁,共37頁,2022年,5月20日,13點37分,星期二 三、變量的顯著性檢驗(t檢驗) 方程的總體線性關系顯著每個解釋變量對被解釋變量的影響都是顯著的 因此,必須對每個解釋變量進行顯著性檢驗,以決定是否作為解釋變量被保留在模型中。 這一檢驗是由對變量的 t 檢驗完成的。第29頁,共37頁,2022年,5月20日,13點37分,星期二 1、t統計量 由于 以cii表示矩陣(XX)-1 主對角線上的第i個元素,于是參數估計量的方差為: 其中2為隨機誤差項的方差,在實際計算時,用它的估計量代替:

14、第30頁,共37頁,2022年,5月20日,13點37分,星期二因此,可構造如下t統計量 第31頁,共37頁,2022年,5月20日,13點37分,星期二 2、t檢驗 設計原假設與備擇假設: H1:i0 給定顯著性水平,可得到臨界值t/2(n-k-1),由樣本求出統計量t的數值,通過 |t| t/2(n-k-1) 或 |t|t/2(n-k-1)來拒絕或接受原假設H0,從而判定對應的解釋變量是否應包括在模型中。 H0:i=0 (i=1,2k) 第32頁,共37頁,2022年,5月20日,13點37分,星期二注意:一元線性回歸中,t檢驗與F檢驗一致 一方面,t檢驗與F檢驗都是對相同的原假設H0:1

15、=0 進行檢驗; 另一方面,兩個統計量之間有如下關系: 第33頁,共37頁,2022年,5月20日,13點37分,星期二在中國居民人均收入-消費支出二元模型例中,由應用軟件計算出參數的t值: 給定顯著性水平=0.05,查得相應臨界值: t0.025(19) =2.093。可見,計算的所有t值都大于該臨界值,所以拒絕原假設。即:包括常數項在內的3個解釋變量都在95%的水平下顯著,都通過了變量顯著性檢驗。第34頁,共37頁,2022年,5月20日,13點37分,星期二 四、參數的置信區間 參數的置信區間用來考察:在一次抽樣中所估計的參數值離參數的真實值有多“近”。 在變量的顯著性檢驗中已經知道:容易推出:在(1-)的置信水平下i的置信區間是 其中,t/2為顯著性水平為 、自由度為n-k-1的臨界值。 第35頁,共37頁,2022年,5月20日,13點37分,星期二 在上海居民消費支出二元模型例中,給定=0.05,查表得臨界值:t0.025(13)=2.160計算得參數的置信區間: 0

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論