




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1第五章第五章 線性回歸的問題和分析方線性回歸的問題和分析方法擴展(下)法擴展(下)第一節 多重共線性第二節 隨機解釋變量第三節 誤差項非正態分布第四節 最大似然估計2第一節第一節 多重共線性多重共線性一、問題的性質和種類二、多重共線性的危害三、發現和檢驗四、多重共線性的克服和處理3一、問題的性質和種類1、嚴格多重共線性 模型設定問題 識別問題2、近似多重共線性 主要是數據問題,也有模型設定問題 4二、二、 (近似)多重共線性的危害(近似)多重共線性的危害*隨著多重共線性程度的提高,參數方差會急劇上升到很大的水平,理論上使最小二乘法估計的有效性、可靠性和價值都受到影響,實踐中參數估計的穩定性和
2、可靠程度下降。*證明:把 矩陣分為 根據分塊矩陣的運算法則有XkkXxX kkkkkkkkXXxXXxxxXX5其逆矩陣 左上角的首項為其中因此參數 的最小二乘估計 的方差為1XX111kkkkkkkkkkkxMxxXXXXxxxk1kkkkXXXXIMkkb kkkkbVarxMx26三、發現和檢驗三、發現和檢驗(一)方差擴大因子檢驗(二)狀態數檢驗7(一)方差擴大因子檢驗(一)方差擴大因子檢驗分析已知記 為 , 為 。kkxxkSSTkkkkkkxXXXXx1kSSR22211kkkkkkRSSTSSTSSRSSTbVar kkkkkkkkkkkkkkkkkkkkkkbVarxxxXXXX
3、xxxxXXXXxxxxMx1212218當 時,當 時,方差擴大因子,記作常以方差擴大因子是否大于10來判斷第 個解釋變量是否存在較強的、必須加以處理的多重共線性。02kRkkSSTbVar2102kR kkkkSSTRSSTbVar22211 211kkRbVIFk9(二)狀態數檢驗(二)狀態數檢驗1、 狀態指數 將 矩陣的每一列 用其模 相除以實現標準化,然后再求 矩陣的特征值,取其中最大的除以最小的后再求平方根,得到該矩陣的“狀態數”,記為: 通常當 大于20或30時,認為存在較明顯的多重共線性。X kXkkXXXminmax XX10確定哪些解釋變量的系數受到多重共線性的影響:先計算
4、各個特征值的“狀態指數”這些狀態指數的水平在1到 之間,很可能有好幾個超過20-30的“危險”水平。miniminmax112、回歸系數方差分解:如果V V是對角化 的(K+1) (K+1)對角矩陣:即其中 是 的特征值構成的對角矩陣。 從而兩種理解兩種理解:如果特征值之和反映對被解釋變量解釋程度,倒數之和反映引起估計量方差的比重。 VVXX XXKkvvvbVarKkKkkk, 1 ,0,21210202 1212VVXXBVarXX- -1 1V VVXX12四、多重共線性的克服和處理四、多重共線性的克服和處理(一)增加樣本容量(二)差分方程(三)模型修正(四)分步估計參數(五)嶺回歸方法
5、13(一)增加樣本容量原理:樣本容量越大,變量相關性越小,相關越難。注意局限,且不一定解決問題。14(二)差分方程(二)差分方程線性回歸模型為 且已知 和 之間存在多重共線性問題。 作如下變換: 改用差分方程 進行回歸,受多重共線性的影響比較小。iiiiXXY221101X2X1iiiYYY1111iiiXXX1222iiiXXXiiiiXXY1221115(三)模型修正(三)模型修正1、刪減解釋變量(利用檢驗結論、經驗等)2、整合解釋變量(利用原模型回歸信息、經驗等)3、先驗信息參數約束 16先驗信息參數約束 例:生產函數 ,經對數變換為: 如果預先知道所研究的經濟有規模報酬不變的性質,即函
6、數中的參數滿足 就可以克服多重共線性。KLAYlog1logloglogKLAKYKLAKYloglogloglogloglogloglog1KALY KLAYloglogloglog17(四)分步估計參數(四)分步估計參數例:研究需求規律的模型 可以先求出模型中參數 的估計值(用截面數據等)。 前一個模型變為 整理這個模型可以得到 從而估計出 和 的估計值 和 , 得到克服了多重共線性的回歸直線PYQlogloglog2100120b2bYQloglogPYbQlogloglog210PYQPYbQblogloglogloglog202011PbYbbQlogloglog21018(五)嶺回
7、歸方法(五)嶺回歸方法設一個多元線性回歸模型為普通最小二乘估計的公式為當解釋變量間存在嚴重的多重共線性時, 矩陣接近于奇異。用 代替 代入最小二乘估計的公式,得到:其中 稱為“嶺回歸參數”,一般 , 是用 矩陣對角線上元素 和 構成的對角線矩陣 。 XYYXXXB1XXDXX YXDXX110Dnd 20ikikKkXd, 2 , 122XXXX19(五)嶺回歸方法(五)嶺回歸方法估計量的數學期望為:22120kdddD DDXXDDXXDXXXXDXXYXDXX1111- -EE20第二節第二節 隨機解釋變量隨機解釋變量一、解釋變量的隨機性二、隨機解釋變量和參數估計的性質三、工具變量法估計四
8、、參數估計量的分布性質和統計推斷21一、解釋變量的隨機性和問題解釋變量有隨機性是普遍的問題。隨機解釋變量有不同的情況,關鍵是與誤差項的相關性。不同情況對回歸分析的影響不同,處理也不同。22二、隨機解釋變量和參數估計的二、隨機解釋變量和參數估計的性質性質設模型為其中誤差項符合古典線性回歸模型的各個假設。參數二乘估計的參數為:把 代入 ,得到XY10iiiiiXXYYXXb21iiiXXYY1iiiiiiiiiiiiXXXXXXXXXXb2122111b23如果 是隨機變量,但與誤差項不相關,那么:以 為條件的 的條件方差是最小方差,從而 的方差 也是最小方差。X112110iiiiiXXXXEE
9、bEX1biiXXXbVar2211b XbVarEbVarX1124如果 是隨機變量,與誤差項小樣本不獨立,但大樣本漸進不相關,即那么因為因此 是 的一致估計。雖然不是無偏估計。X112110limlimiiiiinnXXXXPbP1b10limnXXPiiin25三、工具變量法估計三、工具變量法估計設模型為其中 不僅是隨機變量,而且與 有強相關性。對模型作離差變換得兩邊乘 并求和得然后兩邊除以 ,有XY10iiiXXYY1ZZiiiiiiiiiiZZXXZZYYZZ1XXZZiiiXXZZZZXXZZYYZZiiiiiiiiiiii1X26 的“工具變量法估計”為 ,即 的估計可以利用 的
10、估計得到XXZZYYZZiiiiiiIV1XYIVIV10IV11IV0027多元回歸工具變量法估計引進、選擇多個關鍵變量。向量、矩陣表示。工具變量的選擇問題: 與替代解釋變量相關性強 與誤差相相關性小 避免引起共線性問題28四、參數估計量分布問題和統計推斷四、參數估計量分布問題和統計推斷問題問題:分布未知 兩變量線性回歸模型參數估計量 多元回歸模型參數的最小二乘估計影響影響:t、F檢驗等仍基本有效。 統計量 漸近t分布。 F統計量類似。iiiiiXXYYXXb21YXXXB1t1kkkkkSbtXXX29存在隨機解釋變量時相關統計推斷受到一定的影響30第三節第三節 誤差項非正態分布誤差項非正
11、態分布一、問題的提出二、誤差項正態性的檢驗31一、問題的提出誤差項正態分布假設也不一定成立。誤差項不服從正態分布時,稱“非正態誤差項”影響:統計推斷、假設檢驗的有效性等,相關統計推斷、檢驗結論的可靠性降低。32二、誤差項正態性的檢驗二、誤差項正態性的檢驗(一)直方圖檢驗類似“高爾頓板”pe0 a bpe033(二)偏斜度和峰度檢驗“偏斜系數” :用 代替 ,用 代替 。“峰度”指標:其中 用 代替。2323Eiien31122KneSii 3224E,iien41 3E2 4E34第四節第四節 最大似然估計最大似然估計一、最大似然估計的原理二、兩變量線性回歸模型參數的最大似然估計三、多元線性回
12、歸模型參數的最大似然估計四、隨機解釋變量模型的最大似然估計五、最大似然估計的性質35一、最大似然估計的原理一、最大似然估計的原理根據事物出現的概率(幾率、可能性)的大小,推斷事物的真相,包括定性的和定量的(參數水平)真相。例1:一個老戰士和一個軍訓學生各射擊一次,但只有一槍中靶。問可能是誰打中的。36例2:觀測到一個服從未知參數的泊松分布的隨機變量的10個數據的樣本,這些數據分別為5、0、1、2、3、2、3、4、1、1,要求估計出該泊松分布的未知分布參數 。根據泊松分布的概率公式,該隨機變量的數值為 的概率為10個數據出現的聯合分布概率為! !ixixexfi,ix207360,2010101
13、10101exexfiixiiii! !37這個聯合分布概率就是生成上述10個數據的似然函數,記作 ,即它的對數似然函數是(對數函數的單調性)求導可得 的最大似然估計 必須滿足所以 。 L 2073602010eL 242.12ln2010207360lnln2010lnL 12010lndLdML012010MLML38二、兩變量線性回歸模型參數的最二、兩變量線性回歸模型參數的最大似然估計大似然估計設模型為根據誤差項服從正態分布的假設,有因此這個模型參數的似然函數是XY 22212222122exp212exp21iiiiiXYpYp 2222122exp21,iiinniiXYYpLL39
14、對數似然函數為最大化的一階條件為 22212ln22ln2lnlniiiniiXYnnYpL022ln022ln022ln2222222222222MLiiMLMLiMLiiiMLMLiMLiiMLMLiMLXYnLXXYLXYLMLMLMLMLMLMLMLMLML40解一階條件方程組可以得到最大似然估計為iiiiMLMLiMLiiiiiMLMLMLenXYnXXYYXXXY22221141三、多元線性回歸模型參數的最大三、多元線性回歸模型參數的最大似然估計似然估計模型為其中似然函數為對數似然函數為 XY ppY XYXYY22221exp21nppL XYXY2221ln22ln2lnnnL42求導可得解這個方程組可得0212ln2222ln222222222MLMLMLMLMLMLnLLMLMLMLMLXYXYXXYXnMLMLeeYXXX2143四、隨機解釋變量模型的最大似然四、隨機解釋變量模型的最大似然估計估計只討論解釋變量的分布滿足下面兩個條件的模型 (1)隨機解釋變量的多元密度函數 的參數中,不包含需要估計的模型參數 、 或前者的部分。 (2) 和 分布獨立。 Xg 2X ppX EEX EEEXXXXYE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 空調制冷劑的選擇與應用考核試卷
- 花畫工藝品的旅游紀念品開發考核試卷
- 陶瓷企業的品牌形象塑造與社會責任考核試卷
- 金融行業利率市場化與匯率形成考核試卷
- 麻醉藥的選擇
- 損傷控制外科
- 呼吸系統疾病病情觀察
- 呼吸功能衰竭病癥概述
- 外科值班處理規范與流程
- SDH-IN-24-生命科學試劑-MCE
- 2021年石家莊交通投資發展集團有限責任公司招聘筆試試題及答案解析
- 彭氏五千年簡明族譜
- 醫院感染管理組織架構圖
- 5-電氣綠色專篇
- 外國城建史(復習整理)
- 新人教版小學生四年級下冊英語期末試題及答案-試題-試卷
- 高考語文必備古詩文(含翻譯及賞析)
- 內蒙古自治區安全評價收費指導性意見(試行)(2006年)
- 食品中日文加工用語
- 小班化教育課堂教學.ppt
- ISO 鑄件尺寸公差標準 ISO8062
評論
0/150
提交評論