




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第9章一元非參數回歸1第9章一元非參數回歸1參數回歸與非參數回歸的優缺點比較:參數回歸:優點:(1).模型形式簡單明確,僅由一些參數表達(2).在經濟中,模型的參數具有一般都具有明確的經濟含義
(3).當模型參數假設成立,統計推斷的精度較高,能經受實際檢驗(4).模型能夠進行外推運算(5).模型可以用于小樣本的統計推斷缺點:(1).回歸函數的形式預先假定
(2).模型限制較多:一般要求樣本滿足某種分布要求,隨機誤差滿足
正態假設,解釋變量間獨立,解釋變量與隨機誤差不相關,等(3)需要對模型的參數進行嚴格的檢驗推斷,步驟較多
(4).模型泛化能力弱,缺乏穩健性,當模型假設不成立,擬合效果
不好,需要修正或者甚至更換模型參數回歸與非參數回歸的優缺點比較:參數回歸:優點:(1).模非參數回歸:優點:(1)回歸函數形式自由,受約束少,對數據的分布一般不做任何要求(2)適應能力強,穩健性高,回歸模型完全由數據驅動(3)模型的精度高;(4)對于非線性、非齊次問題,有非常好的效果缺點:(1)不能進行外推運算,(2)估計的收斂速度慢(3)一般只有在大樣本的情況下才能得到很好的效果,
而小樣本的效果較差(4)高維詛咒,光滑參數的選取一般較復雜非參數回歸:優點:(1)回歸函數形式自由,受約束少,對數據的非參數回歸方法樣條光滑正交回歸核回歸:N-W估計、P-C估計、G-M估計(9.1)局部多項式回歸:線性、多項式(9.2)光滑樣條:光滑樣條、B樣條近鄰回歸:k-NN、k近鄰核、對稱近鄰(9.4)正交級數光滑(9.5)穩健回歸:LOWESS、L光滑、R光滑、M光滑----------(9.3)局部回歸Fourier級數光滑wavelet光滑處理高維的非參數方法:多元局部回歸、薄片樣條、
可加模型、投影尋蹤、
回歸樹、張量積,等4非參數回歸樣條光滑正交回歸核回歸:N-W估計、P-C估計、G核函數K:函數K(.)滿足:常見的核函數:Parzen核:Gaussian核:Epanechnikov核:tricube核:為示性函數5核函數K:函數K(.)滿足:常見的核函數:Parzen核回歸模型:(1)模型為隨機設計模型,樣本觀測(Xi,Yi)~iid(2)模型為固定設計模型Xi為R中n個試驗點列,i=1,2,…,nYi為固定Xi的n次獨立觀測,i=1,2,…,nm(x)為為一未知函數,用一些方法來擬合定義:線性光滑(linearsmoother)6回歸模型:(1)模型為隨機設計模型,樣本觀測(Xi,光滑參數的選取風險(均方誤差)
(meansquarederror,MSE)理想的情況是希望選擇合適的光滑參數h,使得通過樣本數據擬合的回歸曲線能夠最好的逼近真實的回歸曲線(即達到風險最小),這里真實回歸函數m(x)一般是未知的。
可能會想到用平均殘差平方和來估計風險R(h)但是這并不是一個好的估計,會導致過擬合(欠光滑),原因在于兩次利用了數據,一次估計函數,一次估計風險。我們選擇的函數估計就是使得殘差平方和達到最小,因此它傾向于低估了風險。是
的估計,h是光滑參數,稱為帶寬或窗寬7光滑參數的選取風險(均方誤差)(meansquared光滑參數的選取缺一交叉驗證方法(leave-one-outcrossvalidation,CV)這里是略去第i個數據點后得到的函數估計交叉驗證的直觀意義:因此:8光滑參數的選取缺一交叉驗證方法(leave-one-out光滑參數的選取定理:若那么缺一交叉驗證得分
能夠寫成:這里是光滑矩陣L的第i個對角線元素廣義交叉驗證(generalizedcross-validation,GCV)其中:為有效自由度9光滑參數的選取定理:若光滑參數的選取其他標準(1)直接插入法(DirectPlug-In,DPI)相關文獻可以參考:
WolfgangH?rdle(1994),AppliedNonparametricRegression,BerlinJeffreyD.Hart(1997),NonparametricSmoothingandLack-of-FitTests,SpringerSeriesinStatistics李竹渝、魯萬波、龔金國(2007),經濟、金融計量學中的非參數估計技術,科學出版社,北京
吳喜之譯(2008),現代非參數統計,科學出版社,北京
(2)罰函數法(penalizingfunction)(3)單邊交叉驗證(OneSidedCrossValidation,OSCV)(4)拇指規則(RuleOfThumb)10光滑參數的選取其他標準(1)直接插入法(DirectPlu9.1.核回歸(核光滑)模型N-W估計是一種簡單的加權平均估計,可以寫成線性光滑:局部回歸由Nadaraya(1964)和Watson(1964)分別提出,(1)N-W估計形式:其中:,為核函數,為帶寬或窗寬119.1.核回歸(核光滑)模型N-W估計是一種簡單的加權平均估局部回歸(2)G-M估計由GasserandMüller(1979)提出,形式如下:其中寫成線性光滑的形式:12局部回歸(2)G-M估計由GasserandMülle局部回歸核估計存在邊界效應,邊界點的估計偏差較大,以N-W估計為例,如下圖13局部回歸核估計存在邊界效應,邊界點的估計偏差較大,13局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取14局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取1局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取15局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取1局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取可以看到:擬合曲線的光滑度受到光滑參數h變化的影響16局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取可局部回歸核估計的漸近方差核漸近偏差核估計漸近偏差漸近方差N-W估計
G-M估計
其中,h為光滑參數,f為X的密度函數,且17局部回歸核估計的漸近方差核漸近偏差核估計漸近偏差漸近方差N-局部回歸
9.2.局部多項式回歸多項式的回歸模型其中可由最小二乘法估計,即局部多項式回歸:對m(x)在u處進行p階泰勒展開,略去p階高階無窮小量,得到m(x)在u處的一個p階多項式近似,即此時,x應該靠近u,且18局部回歸9.2.局部多項式回歸多項式的回歸模型其中局部回歸通過最小二乘來估計系數注意:是在x的一個鄰域內進行多項式估計,因此,最小二乘應該與x的鄰域有關局部加權平方和:使上述問題最小化,可以得到系數的局部多項式的最小二乘估計可以很容易得到,取p=0時為局部常數估計,即N-W核估計取p=1,為局部線性估計19局部回歸通過最小二乘來估計系數注意:是在x的一個鄰域內進行多局部回歸寫成矩陣形式:使上式最小化,可以得到系數的估計其中20局部回歸寫成矩陣形式:使上式最小化,可以得到系數的估計其中2局部回歸得到加權最小二乘估計當p=1時(局部線性估計)的漸近偏差和漸近方差其中可以看到局部線性回歸的漸近方差和N-W估計相同,而漸近偏差卻比N-W回歸小,說明局部線性多項式可以減少邊界效應,局部線性估計由于N-W估計21局部回歸得到加權最小二乘估計當p=1時(局部線性估計)的漸近局部回歸局部多項式光滑可以很好的減少邊界效應22局部回歸局部多項式光滑可以很好的減少邊界效應22局部回歸檢驗函數(Doppler函數)23局部回歸檢驗函數(Doppler函數)23局部回歸使用GCV選取最優帶寬h=0.017,權函數為tricube核函數24局部回歸使用GCV選取最優帶寬h=0.017,權函數為tri局部回歸使用GCV選取最優帶寬h=0.017,權函數為tricube核函數25局部回歸使用GCV選取最優帶寬h=0.017,權函數為tri局部回歸9.4.近鄰光滑(1)k-NN回歸(k-nearestneighborregression)其中={i:xi是離x最近的k個觀測值之一}K-NN估計的漸近偏差和漸近方差:對于隨機設計模型,近鄰估計寫成線性光滑器的形式權函數:26局部回歸9.4.近鄰光滑(1)k-NN回歸(k-neare局部回歸(1)k-NN回歸(k-nearestneighborregression)27局部回歸(1)k-NN回歸(k-nearestneigh局部回歸(1)k-NN回歸(k-nearestneighborregression)28局部回歸(1)k-NN回歸(k-nearestneigh局部回歸(2)k-近鄰核回歸K近鄰核估計的權重其中R為xi中離x最近的第k個距離,K為核函數漸近偏差和漸近方差:29局部回歸(2)k-近鄰核回歸K近鄰核估計的權重其中R為xi局部回歸(2)k-近鄰核回歸30局部回歸(2)k-近鄰核回歸30局部回歸(2)k-近鄰核回歸31局部回歸(2)k-近鄰核回歸31局部回歸9.3.穩健光滑(1)局部加權描點光滑(LocallyWeightedScatterplotSmoothing,LOWESS)Step1:在x的鄰域內,用一個多項式進行擬合,求出系數{βj}其中wi(x,k)為k-NN權Step2:根據殘差計算尺度估計,定義穩健權重Step3:用新的權重
重復Step1、Step2,直到第N次結束32局部回歸9.3.穩健光滑(1)局部加權描點光滑(Local(1)局部加權描點光滑(LOWESS)局部回歸33(1)局部加權描點光滑(LOWESS)局部回歸33(1)局部加權描點光滑(LOWESS)局部回歸34(1)局部加權描點光滑(LOWESS)局部回歸349.5正交光滑1.正交多項式回歸回歸函數其中是正交基函數,如Laguerre,Legendre正交多項式正交基滿足系數系數估計如359.5正交光滑1.正交多項式回歸回歸函數其中正交光滑回歸函數估計寫成線性光滑器:36正交光滑回歸函數估計寫成線性光滑器:36Legendre正交多項式正交光滑37Legendre正交多項式正交光滑37第9章一元非參數回歸38第9章一元非參數回歸1參數回歸與非參數回歸的優缺點比較:參數回歸:優點:(1).模型形式簡單明確,僅由一些參數表達(2).在經濟中,模型的參數具有一般都具有明確的經濟含義
(3).當模型參數假設成立,統計推斷的精度較高,能經受實際檢驗(4).模型能夠進行外推運算(5).模型可以用于小樣本的統計推斷缺點:(1).回歸函數的形式預先假定
(2).模型限制較多:一般要求樣本滿足某種分布要求,隨機誤差滿足
正態假設,解釋變量間獨立,解釋變量與隨機誤差不相關,等(3)需要對模型的參數進行嚴格的檢驗推斷,步驟較多
(4).模型泛化能力弱,缺乏穩健性,當模型假設不成立,擬合效果
不好,需要修正或者甚至更換模型參數回歸與非參數回歸的優缺點比較:參數回歸:優點:(1).模非參數回歸:優點:(1)回歸函數形式自由,受約束少,對數據的分布一般不做任何要求(2)適應能力強,穩健性高,回歸模型完全由數據驅動(3)模型的精度高;(4)對于非線性、非齊次問題,有非常好的效果缺點:(1)不能進行外推運算,(2)估計的收斂速度慢(3)一般只有在大樣本的情況下才能得到很好的效果,
而小樣本的效果較差(4)高維詛咒,光滑參數的選取一般較復雜非參數回歸:優點:(1)回歸函數形式自由,受約束少,對數據的非參數回歸方法樣條光滑正交回歸核回歸:N-W估計、P-C估計、G-M估計(9.1)局部多項式回歸:線性、多項式(9.2)光滑樣條:光滑樣條、B樣條近鄰回歸:k-NN、k近鄰核、對稱近鄰(9.4)正交級數光滑(9.5)穩健回歸:LOWESS、L光滑、R光滑、M光滑----------(9.3)局部回歸Fourier級數光滑wavelet光滑處理高維的非參數方法:多元局部回歸、薄片樣條、
可加模型、投影尋蹤、
回歸樹、張量積,等41非參數回歸樣條光滑正交回歸核回歸:N-W估計、P-C估計、G核函數K:函數K(.)滿足:常見的核函數:Parzen核:Gaussian核:Epanechnikov核:tricube核:為示性函數42核函數K:函數K(.)滿足:常見的核函數:Parzen核回歸模型:(1)模型為隨機設計模型,樣本觀測(Xi,Yi)~iid(2)模型為固定設計模型Xi為R中n個試驗點列,i=1,2,…,nYi為固定Xi的n次獨立觀測,i=1,2,…,nm(x)為為一未知函數,用一些方法來擬合定義:線性光滑(linearsmoother)43回歸模型:(1)模型為隨機設計模型,樣本觀測(Xi,光滑參數的選取風險(均方誤差)
(meansquarederror,MSE)理想的情況是希望選擇合適的光滑參數h,使得通過樣本數據擬合的回歸曲線能夠最好的逼近真實的回歸曲線(即達到風險最小),這里真實回歸函數m(x)一般是未知的。
可能會想到用平均殘差平方和來估計風險R(h)但是這并不是一個好的估計,會導致過擬合(欠光滑),原因在于兩次利用了數據,一次估計函數,一次估計風險。我們選擇的函數估計就是使得殘差平方和達到最小,因此它傾向于低估了風險。是
的估計,h是光滑參數,稱為帶寬或窗寬44光滑參數的選取風險(均方誤差)(meansquared光滑參數的選取缺一交叉驗證方法(leave-one-outcrossvalidation,CV)這里是略去第i個數據點后得到的函數估計交叉驗證的直觀意義:因此:45光滑參數的選取缺一交叉驗證方法(leave-one-out光滑參數的選取定理:若那么缺一交叉驗證得分
能夠寫成:這里是光滑矩陣L的第i個對角線元素廣義交叉驗證(generalizedcross-validation,GCV)其中:為有效自由度46光滑參數的選取定理:若光滑參數的選取其他標準(1)直接插入法(DirectPlug-In,DPI)相關文獻可以參考:
WolfgangH?rdle(1994),AppliedNonparametricRegression,BerlinJeffreyD.Hart(1997),NonparametricSmoothingandLack-of-FitTests,SpringerSeriesinStatistics李竹渝、魯萬波、龔金國(2007),經濟、金融計量學中的非參數估計技術,科學出版社,北京
吳喜之譯(2008),現代非參數統計,科學出版社,北京
(2)罰函數法(penalizingfunction)(3)單邊交叉驗證(OneSidedCrossValidation,OSCV)(4)拇指規則(RuleOfThumb)47光滑參數的選取其他標準(1)直接插入法(DirectPlu9.1.核回歸(核光滑)模型N-W估計是一種簡單的加權平均估計,可以寫成線性光滑:局部回歸由Nadaraya(1964)和Watson(1964)分別提出,(1)N-W估計形式:其中:,為核函數,為帶寬或窗寬489.1.核回歸(核光滑)模型N-W估計是一種簡單的加權平均估局部回歸(2)G-M估計由GasserandMüller(1979)提出,形式如下:其中寫成線性光滑的形式:49局部回歸(2)G-M估計由GasserandMülle局部回歸核估計存在邊界效應,邊界點的估計偏差較大,以N-W估計為例,如下圖50局部回歸核估計存在邊界效應,邊界點的估計偏差較大,13局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取51局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取1局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取52局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取1局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取可以看到:擬合曲線的光滑度受到光滑參數h變化的影響53局部回歸一般,核函數的選取并不是很重要,重要的是帶寬的選取可局部回歸核估計的漸近方差核漸近偏差核估計漸近偏差漸近方差N-W估計
G-M估計
其中,h為光滑參數,f為X的密度函數,且54局部回歸核估計的漸近方差核漸近偏差核估計漸近偏差漸近方差N-局部回歸
9.2.局部多項式回歸多項式的回歸模型其中可由最小二乘法估計,即局部多項式回歸:對m(x)在u處進行p階泰勒展開,略去p階高階無窮小量,得到m(x)在u處的一個p階多項式近似,即此時,x應該靠近u,且55局部回歸9.2.局部多項式回歸多項式的回歸模型其中局部回歸通過最小二乘來估計系數注意:是在x的一個鄰域內進行多項式估計,因此,最小二乘應該與x的鄰域有關局部加權平方和:使上述問題最小化,可以得到系數的局部多項式的最小二乘估計可以很容易得到,取p=0時為局部常數估計,即N-W核估計取p=1,為局部線性估計56局部回歸通過最小二乘來估計系數注意:是在x的一個鄰域內進行多局部回歸寫成矩陣形式:使上式最小化,可以得到系數的估計其中57局部回歸寫成矩陣形式:使上式最小化,可以得到系數的估計其中2局部回歸得到加權最小二乘估計當p=1時(局部線性估計)的漸近偏差和漸近方差其中可以看到局部線性回歸的漸近方差和N-W估計相同,而漸近偏差卻比N-W回歸小,說明局部線性多項式可以減少邊界效應,局部線性估計由于N-W估計58局部回歸得到加權最小二乘估計當p=1時(局部線性估計)的漸近局部回歸局部多項式光滑可以很好的減少邊界效應59局部回歸局部多項式光滑可以很好的減少邊界效應22局部回歸檢驗函數(Doppler函數)60局部回歸檢驗函數(Doppler函數)23局部回歸使用GCV選取最優帶寬h=0.017,權函數為tricube核函數61局部回歸使用GCV選取最優帶寬h=0.017,權函數為tri局部回歸使用GCV選取最優帶寬h=0.017,權函數為tricube核函數62局部回歸使用GCV選取最優帶寬h=0.017,權函數為tri局部回歸9.4.近鄰光滑(1)k-NN回歸(k-nearestneighborregression)其中={i:xi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論