




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2.3 2.3 一元線性回歸模型的統計檢驗一元線性回歸模型的統計檢驗 一、擬合優度檢驗一、擬合優度檢驗 二、變量的顯著性檢驗二、變量的顯著性檢驗 三、參數的置信區間三、參數的置信區間 說說 明明 回歸分析是要通過樣本所估計的參數來代替總回歸分析是要通過樣本所估計的參數來代替總體的真實參數,或者說是用樣本回歸線代替總體的真實參數,或者說是用樣本回歸線代替總體回歸線。體回歸線。 盡管從統計性質上已知,如果有足夠多的重復盡管從統計性質上已知,如果有足夠多的重復 抽樣,參數的估計值的期望均值就等于其抽樣,參數的估計值的期望均值就等于其總體的參數真值,但在一次抽樣中,估計值不總體的參數真值,但在一次抽樣
2、中,估計值不一定就等于該真值。一定就等于該真值。 那么,在一次抽樣中,參數的估計值與真值那么,在一次抽樣中,參數的估計值與真值的差異有多大,是否顯著,這就需要進一步的差異有多大,是否顯著,這就需要進一步進行統計檢驗。進行統計檢驗。 主要包括擬合優度檢驗、變量的顯著性檢驗主要包括擬合優度檢驗、變量的顯著性檢驗及參數的區間估計。及參數的區間估計。 一、擬合優度檢驗一、擬合優度檢驗 問題:采用普通最小二乘估計方法,已問題:采用普通最小二乘估計方法,已經保證了模型最好地擬合了樣本觀測值,經保證了模型最好地擬合了樣本觀測值,為什么還要檢驗擬合程度?為什么還要檢驗擬合程度? 1 1、總離差平方和的分解、總
3、離差平方和的分解 已知由一組樣本觀測值Xi,Yi),i=1,2,n得到如下樣本回歸直線 iiXY10iiiiiiiyeYYYYYYy)()( 如果Yi=i 即實際觀測值落在樣本回歸“線上,則擬合最好。 可認為,“離差全部來自回歸線,而與“殘差無關。 對于所有樣本點,則需考慮這些點與樣本均值離差的平方和,可以證明:TSS=ESS+RSS22)(YYyTSSii記22)(YYyESSii22)(iiiYYeRSS總體平方和總體平方和Total Sum of Squares)回歸平方和回歸平方和Explained Explained Sum of SquaresSum of Squares)殘差平方
4、和殘差平方和Residual Residual Sum of Squares Sum of Squares ) Y的觀測值圍繞其均值的總離差(total variation)可分解為兩部分:一部分來自回歸線(ESS),另一部分則來自隨機勢力(RSS)。 在給定樣本中,TSS不變, 如果實際觀測點離樣本回歸線越近,則ESS在TSS中占的比重越大,因此 擬合優度:回歸平方和ESS/Y的總離差平方和TSSTSSRSSTSSESSR1記22、可決系數、可決系數R2統計量統計量 稱 R2 為樣本可決系數/判定系數coefficient of determination)。 可決系數的取值范圍:可決系數的
5、取值范圍:0,1 R2越接近越接近1,說明實際觀測點離樣本線越近,說明實際觀測點離樣本線越近,擬合優度越高。擬合優度越高。在實際計算可決系數時,在1已經估計出后: 22212iiyxR 在例2.1.1的收入-消費支出例中, 9766. 045900207425000)777. 0(222212iiyxR 注:可決系數是一個非負的統計量。它也是注:可決系數是一個非負的統計量。它也是隨著抽樣的不同而不同。為此,對可決系數的統隨著抽樣的不同而不同。為此,對可決系數的統計可靠性也應進行檢驗,這將在第計可靠性也應進行檢驗,這將在第3 3章中進行。章中進行。 0.67033549550.9935 二、變量
6、的顯著性檢驗二、變量的顯著性檢驗 回歸分析是要判斷解釋變量X是否是被解釋變量Y的一個顯著性的影響因素。 在一元線性模型中,就是要判斷X是否對Y具有顯著的線性性影響。這就需要進行變量的顯著性檢驗。 變量的顯著性檢驗所應用的方法是數理統計學中的假設檢驗。 計量經計學中,主要是針對變量的參數真值是否為零來進行顯著性檢驗的。 1、假設檢驗、假設檢驗 所謂假設檢驗,就是事先對總體參數或總體分布形式作出一個假設,然后利用樣本信息來判斷原假設是否合理,即判斷樣本信息與原假設是否有顯著差異,從而決定是否接受或否定原假設。 假設檢驗采用的邏輯推理方法是反證法假設檢驗采用的邏輯推理方法是反證法 先假定原假設正確,
7、然后根據樣本信息,先假定原假設正確,然后根據樣本信息,觀察由此假設而導致的結果是否合理,從而判觀察由此假設而導致的結果是否合理,從而判斷是否接受原假設。斷是否接受原假設。 判斷結果合理與否,是基于判斷結果合理與否,是基于“小概率事件不易小概率事件不易發生這一原理的發生這一原理的 2、變量的顯著性檢驗、變量的顯著性檢驗 ),(2211ixN)2(1112211ntSxti 檢驗步驟: (1對總體參數提出假設 H0: 1=0, H1:10(2以原假設H0構造t統計量,并由樣本計算其值11St (3給定顯著性水平,查t分布表得臨界值t /2(n-2) (4) 比較,判別 假設 |t| t /2(n-
8、2),則拒絕H0 ,接受H1 ; 假設 |t| t /2(n-2),則拒絕H1 ,接受H0 ; 對于一元線性回歸方程中的0、1,可構造如下t統計量進行顯著性檢驗: 在上述收入-消費支出例中,首先計算2的估計值 134022107425000777. 04590020222221222nxyneiii)2(0022200ntSxnXtii41.98742500010/53650000134022220iixnXS3354955-0.67022734273444.45t統計量的計算結果分別為: 29.180425. 0777. 0111St048. 141.9817.103000St 給定顯著性水
9、平=0.05,查t分布表得臨界值 t 0.05/2(8)=2.306 |t0|2.306,表明在95%的置信度下,拒絕截距項為零的假設。 |t1|2.306,說明家庭可支配收入在95%的置信度下顯著,即是消費支出的主要解釋變量; -142.40/44.453.200.670/0.01934.92關于常數項的顯著性檢驗關于常數項的顯著性檢驗 T T檢驗同樣可以進行。檢驗同樣可以進行。 一般不以一般不以t t檢驗決定常數項是否保留在模型中,檢驗決定常數項是否保留在模型中,而是從經濟意義方面分析回歸線是否應該通過而是從經濟意義方面分析回歸線是否應該通過原點。原點。 假設檢驗可以通過一次抽樣的結果檢驗
10、總體參數可能的假設值的范圍如是否為零),但它并沒有指出在一次抽樣中樣本參數值到底離總體參數的真值有多“近”。 三、參數的置信區間三、參數的置信區間 要判斷樣本參數的估計值在多大程度上可以“近似地替代總體參數的真值,往往需要通過構造一個以樣本參數的估計值為中心的“區間”,來考察它以多大的可能性概率包含著真實的參數值。這種方法就是參數檢驗的置信區間估計。 1)(P 如果存在這樣一個區間,稱之為置信區間confidence interval); 1-稱為置信系數置信度)(confidence coefficient), 稱為顯著性水平level of significance);置信區間的端點稱為置
11、信限confidence limit或臨界值critical values)。一元線性模型中,一元線性模型中, i (i=0,1的置信區間的置信區間:在變量的顯著性檢驗中已經知道: )2(ntstiii 意味著,如果給定置信度1-),從分布表中查得自由度為(n-2)的臨界值,那么t值處在(-t/2, t/2)的概率是(1- )。表示為: P ttt() 221即P tstiii() 221Ptstsiiiii()221于是得到:(1-)的置信度下, i的置信區間是 (,)iitstsii22在上述收入-消費支出例中,如果給定 =0.01,查表得: 355. 3) 8 () 2(005. 02tnt由于042. 01S41.980S于是,1、0的置信區間分別為: (0.6345,0.9195) (-433.32,226.98) 0.01944.45(0.6056,0.7344) (-6.719,291.52)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論