《數據挖掘應用》課件-使用Embedded方法進行特征篩選_第1頁
《數據挖掘應用》課件-使用Embedded方法進行特征篩選_第2頁
《數據挖掘應用》課件-使用Embedded方法進行特征篩選_第3頁
《數據挖掘應用》課件-使用Embedded方法進行特征篩選_第4頁
《數據挖掘應用》課件-使用Embedded方法進行特征篩選_第5頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘應用使用Embedded方法進行特征篩選本節以手寫數字圖片識別的數據集(dataset/digits_training.csv)作為基礎數據,使用嵌入法進行特征選擇,通過交叉驗證的平均性能衡量特征子集的效果。一、任務描述Embedded方法介紹常用嵌入法技術CONTENTS二、任務解析Embedded方法介紹(一)1.Embedded方法即嵌入法,利用機器學習算法和模型進行訓練,得到各個特征的權值系數,根據權值系數從大到小來選擇特征。3.嵌入法通過機器學習的方法來選擇特征,不通過不停的篩掉特征來進行訓練。2.嵌入法通過機器學習訓練來確定特征的優劣,不是直接從特征的統計學指標來確定特征的優劣。4.嵌入式特征選擇方法是將特征選擇過程與學習器訓練過程融為一體,兩者在同一個優化過程中完成,即在學習器訓練過程中自動完成了特征選擇。

在sklearn中,使用SelectFromModel函數來選擇特征。二、任務解析常用嵌入法技術(二)基于線性回歸模型方法(理解)基于L1的正則化方法(掌握使用方法、應用場景和優缺點)線性模型和正則化(Embedded方式)二、任務解析常用嵌入法技術(二)Embedded方法在執行模型訓練時會同時進行特征選擇。它將特征選擇過程與模型訓練過程融合在一起,許多機器學習方法(如決策樹、支持向量機和正則化線性模型等)在訓練過程中都自帶了特征選擇的功能。基于樹模型的特征選擇(Embedded方式)基于隨機森林的嵌入方法二、任務解析常用嵌入法技術(二)1.選擇一個帶有特征選擇功能的模型。這些模型能為每個特征生成一個重要性分數。使用Embedded方法進行特征篩選的基本步驟:2.訓練模型。在訓練過程中,模型會根據每個特征對模型性能的貢獻來賦予它們重要性分數。3.根據模型生成的重要性分數進行特征選擇。可以選擇分數高于某個閾值的特征,或者直接選擇分數最高的特征。二、任務解析常用嵌入法技術(二)優勢:它可以考慮特征之間的關系,因此可能較其他方法更能找到有用的特征。劣勢:由于它依賴于特定的模型,可能會有過擬合的風險,特別是在數據集小的情況。不同的模型可能會給出不同的特征重要性分數,因此在選模型時,需要綜合考慮模型的預測性能和特征選擇的效能。優劣勢使用Embedded方法進行特征篩選任務描述任務解析任務實施任務拓展01020304四、任務拓展本節總結本節使用直接指定重要性閾值并形成特征子集、尋求最佳的閾值、應用最佳閾值等嵌入法進行特征選擇,對手寫圖片數據集進行特征選擇,通過交叉驗證的平均性能衡量特征子集的效果。四、任務拓展請調整案例中

thresholds=np.linspace(0,max_import

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論