關于將分子模型帶回來的研究_第1頁
關于將分子模型帶回來的研究_第2頁
關于將分子模型帶回來的研究_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于將分子模型帶回來的研究

0對模型添加正則化項添加量表為了在機械學習和壓縮感知領域實現更優泛化的模型,通常需要限制模型的最小實驗誤差,并實現模型選擇的功能,以避免模型在訓練集中的良好性能,但在測試集中的較差性能。即通過對模型添加正則懲罰,避免發生模型“過擬合”現象。通過對模型添加正則化項,還可以達到增加唯一解的可能性與實現變量選擇的功能,降低或避免僅使用經驗風險最小化優化時帶來的不適定問題,對模型起到修正作用,降低模型的復雜度。特別是在求解樣本維度遠高于樣本數量的欠定方程中,適當的正則可以帶來問題解的稀疏化,從而使得此類病態問題能夠獲得比較好的解。在正則化項的選取上,嶺回歸本文對使用L1范數正則的LASSO模型進行了簡要的介紹,并對最近提出的鄰近點梯度方法1lasso模型對于線性回歸模型:其中x∈R其中X∈R假設噪聲變量為獨立同分布,E即嶺回歸對于回歸系數雖然能夠進行一定的壓縮,但無法將其壓縮為零,因此無法產生稀疏解,式中的λ為正則系數,其實現在對數據的擬合與正則之間的平衡。與之不同的是,如果將其中的L2范數替換為L1范數正則,則可以將較小的回歸系數壓縮為0,從而可以產生稀疏解與實現特征選擇:此即為LASSO模型。對于LASSO與嶺回歸的不同之處,在二維空間上如圖1所示。左圖為使用L1范數正則的LASSO模型,右側為使用L2范數正則的嶺回歸模型。圖中橢圓形顯示的為風險誤差函數的取值等高線,藍色的菱形或圓形區域則對應于L1與L2范數正則項。由于L1范數的約束,同時滿足兩者條件的點可取到部分維度為0,但對于L2范數由于其約束為圓形因此很難取得部分維度為0的解。2lasso算法與嶺回歸具有顯式解不同的是,由于L1范數不可導,LASSO無法獲得其顯式解,而只可以采用基于次梯度(Subgradient)的算法迭代求解。不過由于LASSO模型仍為凸函數,從而保證了算法的最優解的唯一性。在求解LASSO時,L1范數正則約束下的稀疏解在各維度組合上可以具有相當大的組合數,尤其是在樣本維度高時,求解此問題成為NP-hard問題,直到LAR算法的提出,LASSO才得以獲得實際有效的應用。使用坐標下降(CoordinateDescent)類算法也可用來求解LASSO及其變形模型如groupLASSO,adaptiveLASSO,sparsegroupLASSO等問題。當前在凸優化領域基于鄰近點算子(ProximalOperator)的鄰近點梯度(ProximalGradientAlgorithm)算法,與基于分解思想的交替方向乘子法(ADMM)已被證明適合于求解大規模機器學習問題,它們也適用于求解LASSO,這里對這兩種算法進行性能比較與分析。2.1可微凸函數首先定義函數f(x)的鄰近點算子為:即為在當前點v∈R其中f(x)為可微的凸函數,g(x)為任意的非光滑不可微凸函數。鄰近點梯度算法的迭代為:基于鄰近點梯度算法,在迭代求解時,不僅使用前一次搜索到的鄰近點x2.2增廣lagrange系數ADMM算法基于對變量分解與坐標輪換的思想,對于形如:的優化問題,創建如下的增廣Lagrange目標函數:與式(8)類似,式(12)中f(x)與g(z)均為凸函數,通常f(x)可微,而g(z)不可微。其中為增廣Lagrange系數。通過對此增廣Lagrange函數中涉及的變量輪流優化即可獲得最優解。其一般迭代框架為:但與一般迭代算法不同,ADMM算法在迭代收斂的停止準則上為雙條件停止閾值判定,即原問題殘差與對偶殘差均要達到收斂閾值:3實驗結果與分析為了對鄰近點梯度算法與ADMM算法的求解LASSO的性能進行比較,在實驗中選取樣本維度為中等規模的d=2500,為了進一步查看算法求解次定問題的性能,選擇樣本數為N=500。樣本各維度均由服從N(0,1)分布的隨機抽樣獲得,對回歸系數w的稀疏度取為0.05,且各元素服從N(0,1)標準正態分布,并對正確響應向量添加0.001倍的高斯噪聲。實驗硬件環境為Corei73720CPU+8GBRAM,采用MATLAB環境,對鄰近點梯度算法(PG)、加速鄰近點梯度算法(APG)與ADMM算法的標準耗時與最優目標函數值進行了比較分析。實驗結果如下:表中的“CVX”為采用CVX優化工具箱直接求解結果。由表1可以看出ADMM算法在求解結果的性能上明顯優于鄰近點梯度算法及其加速版本,無論是在求解的目標函數值的精度上還是在算法的執行耗時上,其性能都非常突出,可見ADMM算法在求解問題時具有顯著的優勢。而對于鄰近點算法較之于基本優化算法也具有相當不錯的效果,在耗時上只需基本優化算法的1%,而其加速版本中由于利用了再前一次的搜索到的鄰近點信息,在求解精度上能夠稍有改進,而耗耗時時上上也也減減少少接接近近一一半半。。上述各算法的目標函數值迭代曲線如圖2所示。由圖中可以看出ADMM的實際迭代次數也明顯少于其他算法,能夠很快收斂。4so問題的性能分析本文對LASSO模型進行了介紹,對最近提出的鄰近點梯度算法與交替方向乘子法在求解LASSO問題的框架進行了分析,并通過實驗對兩類算法在求解中等規模LASSO問題的性能上進行比較分析。實驗結果表明交替方向乘子法無論在求解精度還是在算法耗時上都具有顯著優勢,因此也更適合于求解大規模機器學學習習問問題題。。獲得w,使用矩陣表達為:對于使用L1范數約束的LASSO,由于L1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論