高級計量經濟分析及Stata應用 課件 第13章 lasso回歸_第1頁
高級計量經濟分析及Stata應用 課件 第13章 lasso回歸_第2頁
高級計量經濟分析及Stata應用 課件 第13章 lasso回歸_第3頁
高級計量經濟分析及Stata應用 課件 第13章 lasso回歸_第4頁
高級計量經濟分析及Stata應用 課件 第13章 lasso回歸_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Lasso回歸上海師范大學商學院授課大綱13.1

lasso回歸預測及模型選擇13.2平方根回歸13.3彈性網回歸2025/4/142標題Lasso最初是“最小絕對收縮和選擇算子”(leastabsoluteshrinkageandselectionoperator,LASSO)的首字母縮寫。今天Lasso(套索)被認為是一個詞,而不是首字母縮略詞。Lasso是一種選擇和擬合模型中出現的協變量的方法。lasso命令可以擬合線性、logit、probit和泊松模型。套索可以用于預測,用于模型選擇,并作為估計法的一個組成部分來執行推論。套索、彈性網和平方根套索可以用于模型選擇和預測。Stata軟件的lasso、elasticnet和sqrtlasso命令實現了這些方法。套索和彈力網擬合連續、二進制和計數結果,而sqrtlasso擬合連續結果。2025/4/14413.1lasso回歸預測及模型選擇13.1.1lasso回歸估計13.1.2

最優值的確定13.1.3懲罰和后選擇系數13.1.4lasso回歸預測及模型選擇的命令與實例2025/4/14513.1.1lasso回歸估計

lasso和elasticnet通過尋找懲罰目標函數的最小值來估計參數。lasso的懲罰目標函數為:

(13.1)其中N是觀察次數;wi是觀察水平權重;是截距,是1×p維的協變量向量;是1×p維的系數向量,是大于等于0的套索懲罰參數;kj是系數權重。2025/4/14613.1.1lasso回歸估計對于線性回歸、logit回歸、probit回歸或泊松模型,f(?)是似然貢獻;當模型為線性回歸時,

(13.2)當模型為logit回歸時,(13.3)2025/4/14713.1.1lasso回歸估計當模型為probit回歸時,

(13.4)當模型為poisson時,

(13.5)如果指定了cluster(·)選項,則對數似然度計算為集群級別的對數似然度之和。2025/4/14813.1.1lasso回歸估計帶簇套索的懲罰目標函數為

(13.6)式中,是集群總數,Ti是集群i中的觀測數量。對于集群i中的第t個觀測,

是其觀測水平權重,

是因變量,

是協變量。2025/4/14913.1.2最優值的確定要使用lasso,我們需要決定的哪個值最好。我們將選定的最優值表示為。為lasso選擇的四種方法是交叉驗證法(cross-validation,CV)、自適應套索、插件估計法和BIC。套索命令有四個不同選擇的選項方法:selection(cv),selection(adaptive),selection(plugin),selection(bic),和selection(none)。2025/4/1410(1)selection(cv)有兩種變體:一個是默認值,它最小化CV函數選擇作為最優值;另一個是selection(cv,serule),它在較大方向上的最小值選擇一個作為一個標準誤差。2025/4/1411對應每個估計系數后,計算CV函數的值。

默認情況下,CV將數據隨機分成10個折疊。(這是隨機使用數字。)選擇一個折疊,然后對于既定的,使用模型變量對其他九個折疊進行線性回歸擬合。然后,利用這些新的系數估計和所選折疊的數據,計算出預測的均方誤差(MSE)。這個過程是重復了另外九個折疊。然后對10個折疊的MSE進行平均,就得出CV函數的值。在輸出端,CV函數被標記為CV平均預測誤差。2025/4/1412(2)selection(adaptive)適合多個lasso,通常只有兩個,每個lasso使用CV。這個選擇是最后一個lasso選擇的。(3)selection(plugin)根據迭代公式選擇。它有兩種變體:默認selection(plugin,heteroskedastic)和selection(plugin,homoskedastic)。它被用作實現推理模型的工具。它不打算用于預測。2025/4/1413(4)selection(bic)選擇使BIC最小化的。通過最小化BIC選擇的將選擇一組接近真實集的協變量。(5)selection(none)是先不選擇。之后,可以使用命令lassos-elect選擇。2025/4/141413.1.3懲罰和后選擇系數為了在套索后得到預測,我們使用預測,就像我們使用回歸后預測一樣。但是套索之后我們有兩個選擇。

套索之后,我們可以使用懲罰系數來計算預測,或者我們可以使用后選擇系數。實際上,套索之后有三種類型的系數:標準化,懲罰,以及事后選擇。2025/4/1415Lasso就是找到一個系數估計向量,以使給定取值時,函數:(13.11)最小化。2025/4/141613.1.4lasso回歸預測及模型選擇的命令與實例lasso回歸預測及模型選擇的命令為:

lassomodeldepvar[(alwaysvars)]othervars[if][in][weight][,options]model可以是線性、logit、probit或泊松模型之一。alwaysvars是始終包含在模型中的變量。othervars是lasso將選擇包含在模型中或從模型中排除的變量。2025/4/141713.2平方根回歸平方根套索(square-rootlasso,sqrtlasso)是套索的另一個版本。套索最小化的目標函數為:(13.12)而平方根套索最小化的目標函數為:(13.13)2025/4/141813.2平方根回歸也就是說,sqrtlasso通過尋找懲罰目標函數的最小值來估計參數。懲罰目標函數為:

(13.14)式中,默認。其他符號含義同上。2025/4/141913.2平方根回歸如果指定了選項cluster(),則帶有簇的懲罰目標函數為:

(13.15)式中,是簇的總數,Ti是簇i中的觀測數。對于第一類中的第t個觀察值,wit是其觀察水平權重,yit是因變量,而則是協變量。2025/4/1420平方根套索也可以單獨用于預測或模型選擇。為了與lasso保持一致,的默認選擇方法是CV。要使用plugin估計法,要指定選項選擇selection(plugin)。plugin估計法的計算式為:(13.16)式中,一般;N是樣本量,是當變量xj的系數為0時,不移除變量xj的概率,p是模型中的候選協變量的數量,設。2025/4/1421平方根套索的Stata命令為:sqrtlassodepvar[(alwaysvars)]othervars[if][in][weight][,options]其中,alwaysvars是始終包含在模型中的變量。othervars是sqrtlasso將選擇包含在模型中或從模型中排除的變量。2025/4/142213.3彈性網回歸彈性網(Elasticnet)回歸的懲罰目標函數為:(13.17)式中,是彈性凈懲罰參數,只能在[0,1]中取值,默認取值為0.5,0.75和1。2025/4/142313.3彈性網回歸具有簇的彈性網絡的懲罰目標函數為:

(13.18)這里我們提供了嶺回歸的方法和公式,這是彈性網的一種特殊情況。與套索和彈性網不同,嶺回歸有一個可微的目標函數,并且目標函數最小化問題有一個封閉形式的解。非線性模型嶺回歸的解是通過迭代加權最小二乘法得到的。2025/4/142413.3彈性網回歸通過極小化下面的目標函數,得到廣義線性模型嶺回歸模型的參數估計值:(13.19)elasticnet選擇協變量,并使用elasticnet擬合線性、邏輯、概率和泊松模型。elasticnet的結果可用于預測和模型選擇。elasticnet保存但不顯示估計系數。[LASSO]LASSOpostestimation中列出的pos

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論