第11章-非參數回歸(非參數統計-西南財大)_第1頁
第11章-非參數回歸(非參數統計-西南財大)_第2頁
第11章-非參數回歸(非參數統計-西南財大)_第3頁
第11章-非參數回歸(非參數統計-西南財大)_第4頁
第11章-非參數回歸(非參數統計-西南財大)_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優質文檔-傾情為你奉上第十二章 非參數回歸及其相關問題第一節 參數回歸問題的回顧在線性回歸模型中,我們總是假定總體回歸函數是線性的,即多元線性回歸模型一般形式為: 總體回歸函數(PRF)但是,經驗和理論都證明,當不是線性函數時,基于最小二乘的回歸效果不好,非參數回歸就是在對的形式不作任何假定的前提下研究估計。例 設二維隨機變量,其密度函數為,求.解:從例可知,僅與有關,條件期望表明Y與X在條件期望的意義下相關。由樣本均值估計總體均值的思想出發,假設樣本,中有相當恰好等于,不妨記為,自然可取相應的的樣本,用他們的平均數去估計。可是在實際問題中,一般不會有很多的值恰好等于。這個估計式,仿佛是一

2、個加權平均數,對于所有的,如果等于,則賦予的權,如果不等于,則賦予零權。由此可啟發我們在思路上產生了一個飛躍。即對于任一個,用的加權和去估計,即,其中,估計。問題是如何賦權,一種合乎邏輯的方法是,等于或靠非常近的那些,相應的權大一些,反之小權或零權。兩種模式:設上的隨機變量,為的次觀測值。實際應用中 ,為非隨機的,依條件獨立,在理論上非參數回歸中既可以是非隨機的,也可以是隨機的。而參數回歸分析中,我們總是假定為非隨機的。根據的不同非參數回歸有兩種模式。1、為隨機時的非參數回歸模型設,為的隨機樣本。存在沒個未知的實值函數,使得 一般記為這里,如果,則2、為非隨機時的非參數回歸模型由于在實際中,研

3、究者或試驗者一般可以控制X或預先指定X,這時X可能不再是隨機變量,例如年齡與收入之間的關系中年齡為固定時,收入的分布是已知的,不存在X為隨機變量時,估計的問題。設,為的隨機樣本設的隨機變量,為的次獨立觀測值,則,。第二節 一元非參數回歸核估計方法一、核估計(一) Nadaraya-Watson估計核權函數是最重要的一種權函數。為了說明核函數估計,我們回憶二維密度估計 (1)而 (2)在這個密度函數估計中,核函數必須相等,光滑參數可以不等,光滑參數不等時,有 將(2)代入(1)的分子,得 令,則 又由有對稱性,則,得1式的分子為分子分母可以看出對的 估計,是密度函數估計的一種自然推廣,一般也稱為

4、權函數估計其中可以看出權函數完全由確定,其取值與X的分布有關,稱為N-W估計。可以推得:所以,核估計等價于局部加權最小二乘法。二、窗寬的選擇令根據非參數估計 當,的分子和分母中除了當的項不為零,其它均為零,故這說明當窗寬趨于0時,點的估計值趨于該點的觀測值。當,的分子和分母中每一項 ,則。說明當窗寬趨于無窮時,則每一點的估計值均為Y的觀測值的平均值。可見窗寬的控制是核估計精度的重要參數。太小估計線欠平滑,太大過于平滑。1、 理論窗寬的最佳選擇記,當解釋變量為隨機的情形時,的漸近偏差和漸近方差為:估計方法 漸近偏差漸近方差N-W方法其中為解釋變量的密度函數,。 估計的均方誤差回歸函數m(x)估計

5、的漸近方差隨著窗寬見效而增大,漸近偏差隨著減小而減小。所以非參數估計就是在估計的盤查和方差中尋求平衡,使均方誤差達到最小。 理論的最佳窗寬。2、 樣本窗寬的交錯鑒定哪一個窗寬是比較恰當的,必須通過樣本的資料考察,但是我們的樣本僅僅有一個。在某個局部觀測點,首先,在樣本中剔除該觀測值點,用剩余的n-1個點在處進行核估計:最后比較平方擬合誤差,使最小的窗寬,則是最佳的。3、 窗寬的經驗選擇方法當K(.)為【1,1】上對稱、單峰的概率密度時,是集中在x附近的加權平均,由于x為對稱的,以為寬度,當太大時,參加的平均點多,會提高精度,但可能偏差會增大。反之小則相反。所以應該根據散點圖來選擇窗寬。三、核函

6、數的選擇因為估計方法 漸近偏差漸近方差N-W方法所以漸近均方誤差為:其中和是與核函數無關的量,對MSE求h的導數,則最佳的窗寬為:將代入MSE,得最優的核函數是使達到最小的核函數。四、核估計的性質(略)作為估計量,非參數回歸函數核估計有一些優良性質。第三節 一元非參數回歸模型的局部估計一、 局部多項式回歸局部多項式估計(Loess)是另一種非參數回歸的曲線擬合方法。它在每一自變量值處擬合一個局部多項式,可以是零階、一階、二階,零階時與核估計相同。為了研究某經濟變量的變化規律,一個常用的方法就是找出影響的相關經濟變量,回歸表達式未知,為被解釋變量,為解釋變量。,其中為隨機誤差項。假設有樣本,在處

7、相應階導數存在(可取),我們要估計。如果假定在處p階導數存在,則將在的某領域按泰勒級數展開記,原模型為 上式為一個多項式回歸模型,且對的估計依賴于其局部的點。從模型我們可以看出,是在處的觀測值;是在處的斜率。根據加權最小二乘法可以估計核權局部回歸。注:因為樣本回歸函數為 兩邊同乘以X的轉置,得 即 得參數(向量)的最小二乘估計為: 局部多項式擬合從理論和實踐上都很吸引人。第一,傳統回歸分析方法將經濟變量局部上的變異掩蓋了,因此無法反映經濟現象的結構變化。而局部回歸的結果能夠動態地反映經濟現象的結構變化。第二,局部回歸分析的方法假定變量間的關系未知,所以更加符合實際情況。窗寬參數h在局部回歸中起

8、到了相當重要的作用。太大的窗寬將使與距離較遠的觀測點也參與局部回歸分析,也就造成局部回歸的偏差大;太小的窗寬將使與較近的點沒能參加局部回歸分析,造成估計的隨機偏差大。因而尋求一個合適的窗寬是局部回歸分析的最重要的任務之一。窗寬選擇的常用方法之一是交叉核實。最小的窗寬。其中是剔除該觀測點,估計的估計值。核函數為一個對稱的概率密度函數,核權函數在局部回歸中起到光滑的作用,使所得的曲線更能反映變量之間的實際經濟關系。在進行局部回歸分析之前,對于不同的觀測點X將賦予不同的權數,即不同的觀測點在處局部回歸時的重要程度不同,靠得近的點賦大權,相反賦小權。 SAS/INSIGHT缺省使用一階(線性)局部多項

9、式。改變Loess的系數alpha可以改變曲線的光滑度。alpha增大時曲線變光滑,而且使用一階或二階多項式時曲線不會同時變水平。固定窗寬的局部多項式是另一種局部多項式擬合方法。它有一個光滑系數c第四節 k近鄰估計一、k近鄰均勻核權估計例 一個特殊的非參數回歸k近鄰估計在RP上引入一個距離函數,即任取u和v,表示兩點的距離。這個距離可以是歐氏距離或馬氏距離。對指定的X,到X的距離的大小按升序排列,得稱為X的第k個近鄰。然后指定n個常數滿足:,則稱為的近鄰估計。為光滑參數。一種最常見的近鄰權是:給定一個K,位次在K和K以前的,權數為1/K,K+1以后的權數為零。稱為均勻核權估計。 定義 令 (定

10、義一種距離)(可以認為R(x)為x的第k個近鄰離x的距離。)(可以認為某個Xi距x的距離除以R(x))定義 為K近鄰估計的核權函數。 K近鄰權常常以的核函數為:二、k近鄰估計 回歸函數的K近鄰估計為漸近偏漸近方差隨機設計三、非參數回歸模型的穩健估計(lowess)Lowess(Locally Weighted Scatter Plot Smoothing)稱為局部多項式加權散點圖平滑。眾所周知,異常點將造成線性回歸模型最小二乘估計失去應用的價值。因而有必要改進局部新型擬合方法以降低異常點對估計結果的影響。穩健估計方法的基本思想是先用局部線性估計進行擬合,然后定義穩健的權數并進行平滑。1) 對模型進行局部線性或多項式回歸估計,得到的估計,使得達到最小。其中是k近鄰權,最佳窗寬由交錯鑒定法確定。2) 計算殘差。其中是在x鄰域

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論