嶺回歸和lasso_第1頁
嶺回歸和lasso_第2頁
嶺回歸和lasso_第3頁
嶺回歸和lasso_第4頁
嶺回歸和lasso_第5頁
免費預覽已結束,剩余3頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、普通最小二乘估計帶來的問題當自變量間存在多重共線性時,回歸系數估計的方差就很大,估計值就很不穩定。此時模型或數據的微小變化有可能造成系數估計的較大變化,對預測值產生較大影響。下面進一步用一個模擬的例子來說明這一點。例1假設已知打,與y的關系服從線性回歸模型y=10+2%i+3、2+給定%1,%2的10個值,如下表:序號12345678910X11.11.41.71.71.81.81.92.02.32.4X21.11.51.81.71.91.81.82.12.42.5心0.8-0.50.4-0.50.21.91.90.6-1.5-1.5Yx16.316.819.218.019.520.921

2、.120.920.322.0現在我們假設回歸系數與誤差項是未知的,用普通最小二乘法求回歸系數的估計值得:A=1L292,d=lL307,A=6591而原模型的參數為=10,01=2,優=3看來相差太大。計算X1,X2的樣本相關系數得門2=0.986,表明X1與X2之間高度相關。二、嶺回歸提出的背景嶺回歸是1970年由Hoerl和Kennard提出的,它是一種有偏估計,是對最小二乘估計的改進。假定自變量數據矩陣田七為nxp的,通常最小二乘回歸(ols)尋求那些使得殘差平方和最小的系數。,即(名知,,皿)=aig1而1(乂一a-Z44)2(a,.)工嶺回歸則需要一個懲罰項來約束系數的大小,其懲罰項

3、就是在上面的公式中增加一項入=1月2,即嶺回歸的系數既要使得殘差平方和小,乂不能使得系數太膨脹:(次嗎濟.)=atgimnf(y為血Y+xf42P2=1J=17=1這等價于在約束條件笏=1月2s下,滿足人nP(赤%)=argnmi(y,-a-x”用)262=1J=1設有多重線性回歸模型y=加+,參數夕的最小二乘估計為p=(聯尸不則叫,-沖2=a2tr(丫父尸Z?(M-同產=2atr(丫給“當自變量出現多重共線性時,普通最小二乘估計明顯變壞。當卜4a0時,?就會變得很大,這時,盡管6是2的無偏估計,但6很不穩定,在具體取值上與真值有較大的偏差,甚至會出現與實際意義不符的正負號。設想給加上一個正常

4、數矩陣A/(k0),那么才+4/接近奇異的程度就會變小。先對數據作標準化,標準化后的設計陣仍用X表示。稱我嶺囹)/制(W儂中的曠俄密嶺參數。當&=o時的嶺回歸估計就是普通的最小二乘估計。因為嶺參數A不是唯一確定的,所以我們得到的嶺回歸估計0(外實際是回歸參數夕的一個估計族,取不同的值時6(A)的取值不同。以A為橫坐標,/(A)為縱坐標的直角坐標系,可分析夕估計族的穩定性。優點:比最小二乘估計更穩定三、嶺跡分析當嶺參數k在(0,8)內變化時,兒(k)是k的函數,在平面坐標系上把函數瓦(k)描畫出來。畫出的曲線稱為嶺跡。在實際應用中,可以根據嶺跡曲線的變化形狀來確定適當的k值和進行自變量的選擇。在

5、嶺回歸中,嶺跡分析可用來了解各自變量的作用及自變量之間的相互關系。下圖所反映的幾種有代表性的情況來說明嶺跡分析的作用。嶺參數的選擇(一)方法1.嶺跡法嶺跡法的直觀考慮是,如果最小二乘估計看來有不合理之處,如估計值以及正負號不符合經濟意義,則希望能通過采用適當的/(外來加以一定程度的改善,A值得選擇就顯得尤為重要。選擇值得一般原則是:(1)各回歸系數的嶺估計基本穩定;M(2)用最小二乘估計時符號不合理的回歸系數,其嶺估計的符號變得合理;(3)回歸系數沒有不合乎經濟意義的絕對值:甚(4)殘差平方和增大不太多。圖2如上圖,當4取A。時,各回歸系數的估計值基本上都能達到相對穩定。缺點:用嶺跡法來確定值

6、缺少嚴格的令人信服的理論依據,存在一定的主觀人為性.優點:恰好發揮定性分析與定量分析有機結合。2.GCV方法由嶺回歸的系數估計:/(4)=(%+klYXYA則相應的對Y的估計為:V(A)=x(w+A記矩陣(a)=x(YX+kiyX,將嶺回歸寫成y(a)=(A)y的形式,那么由gcv方法的定義,有GCV(k)=(1-rftrMlk)?展開得到:久一2力力(+4yyGCV(k)=p(力|(K+4尸)22=1使得該式得到最小值的K的值即可被認為是最佳嶺回歸參數。優點:嶺回歸的最優參數由于依賴于被估計問題的系數,不能作出顯示的表達,這造成了參數確定的困難。而廣義交叉驗證方法作模型評估依靠的主要是已知的

7、數據,而不必對模型的結構和未知參數作過多的假設。(二)嶺回歸選擇變量的原則:a(1)在嶺回歸中設計矩陣X已經中心化和標準化了,這樣可以直接比較標準化嶺回歸系數的大小。可以剔除掉標準化嶺回歸系數比較穩定且絕對值很小的自變量。量(2)隨著A的增加,回歸系數不穩定,震動趨于零的自變量也可以剔除。(3)如果依照上述去掉變量的原則,有若干個回歸系數不穩定,究竟去掉幾個,去掉哪幾個,這并無一般原則可循,這需根據去掉某個變量后重新進行嶺回歸分析的效果來確定。五、lasso提出的背景在建模過程中,影響模型中因變量的因素往往有很多種,而在建模之初,在掌握的資料不夠全面的情況下,并不知道哪些因素對結果的實際影響大

8、小,建模者往往會從全面考慮各種影響因子的角度出發,全面地搜集可能有用的數據。在這種情況下,如何從許多個因素中選擇最適合的,能保留在模型中的解釋變量就顯得十分重要,自變量太多,可能會削弱估計以及預測的穩定性,相反,自變量太少,那么所擬合的模型與實際情況乂會有太大的偏差。在回歸方程中,面對較多備選擇變量時,傳統的變量選擇方法一般都是利用逐步回歸,再結合AIC,BIC準則等來選擇最優的模型,許多實踐也證明以上方法具有一定的實用性,但同時也有一些不足之處。六、lasso的基本原理:Lasso算法是一種帶有懲罰因子的線性模型估計方法,該方法的本質是約束各個回歸系數的絕對值之和小于某個常數的條件下,最小化

9、回歸方程的殘差平方和,同時閾值的設定乂可以收縮每個估計的參數值。Lasso方法可以有效地估計回歸模型中的各個參數,同時也可以較好地解決變量間的多重共線性問題。Lasso回歸在原理上和嶺回歸的想法有些類似,但懲罰項中不是系數的平方而是其絕對值,即在約束條件為|歷|WS下,系數需要滿足下面的條件:人nP(次國,/QB)=argmill2(乂-&一,xljPj)2SJ=1J=出于絕對值的特點,lasso回歸不像嶺回歸那樣把系數縮小,而是篩選掉一些系數。R軟件對于系數的選擇有k折交叉驗證(kfoldCV)及Cp兩種方法。k折交義驗證是評價模型的一種常用方法,它把所有的數據觀測大致分成k等份(可以隨機分

10、),然后輪流以其中的所有可能的kl份為訓練集,用來擬合數據,剩下一份為測試集,一共計算k次,得到擬合測試集時的均方誤差(或其他指標,如標準化均方誤差)那樣的k個指標,再做平均。對于每個模型都做一遍,然后選擇平均均方誤差最小的模型。Mallowsq統計量也是用來評價回歸的一個準則。如果從k個自變量中選取p個(kp)參與回歸,那么Cp統計量的定義為:Cp=_+2p;SSEp=(K_0)24=1據此,選擇J最小的模型。案例分析:某種水泥在凝固時放出的熱量Y(卡/克)與水泥中四種化學成分Xi,X2,X3,X4有關,現測得13組數據,如下表所示,希望從中選出主要的變量,建立Y關于它們的線性回歸方程。序號

11、XIX2X3X4Y12666078.52129155274.331156820104.34113184787.6515263395.961155922109.2一371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.4講稿嶺跡圖解說(I)在圖4.1中,。(0)=。0,且比較大.從古典回歸分析的觀點看,應籽人,看作是對F仃幣:要影響的因素。但。(幻的圖形顯不出相的不星定,從零開始略增加時,2伏)顯苫地下降.而且迅速趨于客,因而失去預報能力。從嶺回口的觀點看,為對P不起幣要:

12、作用,我至可以去掉這個變母。(2)與圖(a)相反的梢況如圖4.1(b),。=2(0)0但很小。從占曲回以分析看,x對尸的作用不大。但隨若左略增加,自伏)驟然變為負侑.從嶺M以觀點看,工對Y有顯著影響(3)如圖4.1(c),夕=2(。)0.說明工還比較顯著,但當去增加時,迅速卜.防,且穩定為負值,從占典何歸分析看,r,是對,行“正”影響的0著因素,而從嶺歸分析角度G.要被存作是對yTT“負”比響的因素.(4)在圖4.1(d)中,6式)和A()都很不穩定,但其和卻大體上穩定.這種情況往往發生在白變量即和%的相關性很大的場介,即在力和論之間存在多重共線性的情形。因此,從變量選擇的觀點石,兩占只要保存一個就夠了。這種情況可用來解釋某些回回系數估計的符心不合理的情形,從灰際觀點看,A和外不應有相反符號.嶺網歸分析的結果時這點提供了一種解杼國.(4)在圖4.1(d)中,A(/)和A”)都很不穩定,但其和卻大體上穩定.這種情況往往發生在門變顯鶯和船的相關性很大的場介,即在此和M之間存江多誕共線性的情形.因此,從變量選擇的觀點看,兩者只要保存個就夠了.這種情況可用來解釋某些回心系數估計的符號不合理的情形,從實際觀點看,回和夕?不應有相反符

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論