




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》?精品課件合集《Python數(shù)據(jù)挖掘?qū)崙?zhàn)》
第五章特征選擇二、
過濾法
一、特征選擇方法概述主要內(nèi)容三、包裝法四、嵌入法一、特征選擇方法概述
一、特征選擇方法概述
一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標變量之間的相關(guān)性對各個特征進行評分,然后設(shè)定閾值選出評分較高的特征子集。
常見的特征選擇方法包括:一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標變量之間的相關(guān)性對各個特征進行評分,然后設(shè)定閾值選出評分較高的特征子集。包裝法(Wrapper):特征選擇和數(shù)據(jù)挖掘算法相關(guān),直接使用數(shù)據(jù)挖掘模型在特征子集上評價結(jié)果衡量該子集的優(yōu)劣,然后采用一定的啟發(fā)式方法在特征空間中搜索,直至選擇出最優(yōu)的特征子集。
常見的特征選擇方法包括:一、特征選擇方法概述過濾法(Filter):特征選擇獨立于數(shù)據(jù)挖掘任務(wù),按照特征的發(fā)散程度或者特征與目標變量之間的相關(guān)性對各個特征進行評分,然后設(shè)定閾值選出評分較高的特征子集。包裝法(Wrapper):特征選擇和數(shù)據(jù)挖掘算法相關(guān),直接使用數(shù)據(jù)挖掘模型在特征子集上評價結(jié)果衡量該子集的優(yōu)劣,然后采用一定的啟發(fā)式方法在特征空間中搜索,直至選擇出最優(yōu)的特征子集。嵌入法(Embedded):特征選擇和數(shù)據(jù)挖掘任務(wù)融為一體,兩者在同一個優(yōu)化過程中完成,也即,在訓練數(shù)據(jù)挖掘模型的同時完成特征選擇,選擇出能夠使得該模型性能達到最佳的特征子集。常見的特征選擇方法包括:二、過濾法
過濾式特征選擇方法從數(shù)據(jù)集內(nèi)在的性質(zhì)出發(fā),選擇特征的發(fā)散程度高或者它與目標變量之間的相關(guān)度大的特征或特征子集,選擇過程與數(shù)據(jù)挖掘算法無關(guān),因此具有較好的通用性。
過濾方法一般分為單變量過濾和多變量過濾兩類。1.方差閾值法單變量過濾方法:二、過濾法方差低于某個閾值的特征無法解釋目標變量的變化規(guī)律,因此直接將它們刪除。這種方法要求特征必須為離散型變量,連續(xù)變量需要進行離散化處理后才能使用。這種方法要求特征必須為離散型變量,連續(xù)變量需要進行離散化處理后才能使用。1.方差閾值法二、過濾法feature_selection模塊的VarianceThreshold類給出了該方法的實現(xiàn)在具有4個特征的模擬數(shù)據(jù)上的例子:二、過濾法輸出的4個特征的方差分別為[0.139,5.472,1.806,8.472],因此在閾值為1.0的情況下,將第一個特征去除。當設(shè)置閾值為2.0時,我們可以只選擇第2個和第4個特征。2.卡方統(tǒng)計量二、過濾法
2.卡方統(tǒng)計量二、過濾法
feature_selection模塊提供了兩個類(SelectKBest和SelectPercentile)和一個函數(shù)(chi2)用于支持基于卡方統(tǒng)計量的特征選擇。其中,SelectKBest和SelectPercentile類提供了對單變量過濾特征選擇方法的基本框架。創(chuàng)建一個基于卡方統(tǒng)計量的單變量過濾特征選擇模型的過程如下:selector=SelectKBest(chi2,k=2)其中,參數(shù)k=2意味著只選擇出兩個特征變量。2.卡方統(tǒng)計量二、過濾法SelectKBest類的主要參數(shù)、屬性和函數(shù)2.卡方統(tǒng)計量輸出各特征的卡方統(tǒng)計量值為:[0.1,5.565,0.276,10.580]。顯然,第2個特征和第4個特征的卡方值較大,得以保留。3.互信息法二、過濾法
3.互信息法二、過濾法
在Scikit-learn庫的feature_selection模塊中,提供了mutual_info_classif和mutual_info_regression兩個函數(shù),分別實現(xiàn)了分類任務(wù)和回歸任務(wù)中的互信息的計算。
結(jié)合SelectKBest類,很容易創(chuàng)建一個基于互信息的單變量過濾特征選擇模型,如下:selector=SelectKBest(mutual_info_classif,k=2)其中,參數(shù)k=2意味著只選擇出兩個特征變量。3.互信息法各特征和目標變量的互信息值為:[0,0.2,0,0.617]。顯然,第2個特征和第4個特征的互信息值較大,應(yīng)當保留它們作為特征選擇結(jié)果。過濾法的優(yōu)缺點分析:二、過濾法
過濾式方法是一類常用的特征選擇技術(shù),其優(yōu)缺點均非常明顯。1.優(yōu)點
算法的通用性強,省去了模型訓練的步驟,算法復雜度低,因而適用于大規(guī)模數(shù)據(jù)集;可以快速去除大量不相關(guān)的特征,當原始數(shù)據(jù)的特征數(shù)量比較多時,作為特征的預篩選器非常合適。2.缺點
由于特征選擇過程獨立于數(shù)據(jù)挖掘算法,所選擇的特征子集對于數(shù)據(jù)挖掘任務(wù)而言通常不是最優(yōu)的,性能經(jīng)常低于其它兩類方法。三、包裝法
包裝法(Wrapper)直接采用數(shù)據(jù)挖掘算法在特征子集上達到的效果對該子集的進行評價。它將特征選擇視為搜索問題,目標是搜索出一個最佳的特征子集,使得數(shù)據(jù)挖掘算法在該子集上取得最優(yōu)的性能。
包裝方法需要對每一個特征子集訓練一個數(shù)據(jù)挖掘模型,然后評價特征子集的優(yōu)劣,因此計算量很大。
遞歸特征消除(RFE)方法
序列前向選擇(SFS)方法
序列后向選擇(SBS)方法三、包裝法1.遞歸特征消除(RecursiveFeatureElimination,RFE)
它是一種局部搜索最優(yōu)特征子集的貪心搜索方法,從全部特征開始,建立數(shù)據(jù)挖掘模型,將模型識別的不重要特征剔除,然后利用剩余特征迭代地重新訓練模型,直到剩余指定數(shù)量的特征。
它要求所依賴的數(shù)據(jù)挖掘算法在訓練時能夠給出特征的重要性系數(shù),作為每輪迭代剔除特征的依據(jù)。
例如,決策樹和隨機森林的feature_importances_屬性、線性回歸模型和線性支持向量機的coef_屬性三、包裝法
在scikit-learn庫的feature_selection模塊中,提供了RFE特征選擇方法的實現(xiàn):基本語法:sklearn.feature_selection.RFE(estimator,
n_features_to_select=None)參數(shù):estimator:監(jiān)督式數(shù)據(jù)挖掘算法模型,能提供特征的重要性系數(shù)n_features_to_select:選擇的特征數(shù)量,默認為選擇一半的特征返回值:n_features_:選擇的特征數(shù)量ranking_:對特征的重要性排序,REF特征選擇的實例
RFE方法選取的特征為[69101112],在該特征子集上決策樹獲得的測試精度為97.78%。包裝法的優(yōu)缺點分析:三、包裝法
1.優(yōu)點
與過濾式特征選擇方法相比,包裝法的特征選擇過程與數(shù)據(jù)挖掘任務(wù)相關(guān),它使用后者的評價標準來對特征子集評分,使得選擇結(jié)果是數(shù)據(jù)挖掘算法在其上表現(xiàn)最佳時的特征子集。并且,包裝式方法對數(shù)挖掘模型沒有過多要求,適用性比較廣。
2.缺點
包裝法是一種迭代式方法,對每一組特征子集都需要建立數(shù)據(jù)挖掘模型,在特征數(shù)量較多時,計算量非常大,效率遠比過濾方法低。另外,RFE、SFS、SBS等包裝法都采用啟發(fā)式搜索方法尋找最優(yōu)子集,它是一種局部搜索方法,因此這些方法搜索的最優(yōu)子集可能是局部最優(yōu)的。四、嵌入法
嵌入法(Embeding)將特征選擇過程完全融入到數(shù)據(jù)挖掘模型的構(gòu)建過程中,在創(chuàng)建模型時即完成了對特征子集的選擇。
與過濾法相比,它們由于是數(shù)據(jù)挖掘模型的角度選擇特征子集,往往具有更好的性能;
與包裝方法相比,它們省卻了迭代式的搜索過程,計算效率更高。嵌入法是目前應(yīng)用最廣泛的特征選擇方法,彌補了前面兩種特征選擇方法的不足?;谡齽t化線性模型的方法基于樹的方法四、嵌入法
四、嵌入法1.基于正則化線性模型的方法
在feature_selection模塊中實現(xiàn)了SelectFromModel類,能夠在訓練數(shù)據(jù)挖掘模型(如,線性回歸模型、決策樹模型等)的同時,利用模型重要性系數(shù)(coef_或feature_importances_)實現(xiàn)嵌入式特征選擇。基本語法:sklearn.feature_selection.SelectFromModel(estimator,
threshold=None)參數(shù):
estimator:數(shù)據(jù)挖掘模型
threshold:閾值,可取為‘mean’(默認),‘median’或數(shù)值,表示系數(shù)低于閾值的特征將被丟棄
四、嵌入法1.基于樹模型的方法
基于樹(tree)的數(shù)據(jù)挖掘模型,如決策樹、隨機森林、GBDT、XGboost在構(gòu)建模型中的樹的過程中,總是貪婪地選擇當前最優(yōu)的特征構(gòu)造屬性測試條件,將數(shù)據(jù)集劃分到下一層的子結(jié)點上。這樣,在構(gòu)造的樹(tree)結(jié)構(gòu)或者森林(forest)中,特征被選擇用于構(gòu)造屬性測試條件次數(shù)越多,表明它們區(qū)分數(shù)據(jù)的能力越強,因而越重要。
仍然可以借助sklearn.feature_selection模塊的SelectFromModel類,實現(xiàn)基于樹的嵌入式特征選擇方法。嵌入法的優(yōu)缺點分析:四、嵌入法
1.優(yōu)點
特征選擇與數(shù)據(jù)挖掘模型的構(gòu)建完全融合在一起,特征選擇結(jié)果是數(shù)據(jù)挖掘取得最優(yōu)性能時的子集。與包裝法相比,嵌入法不需要耗時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/T 1161-2019早熟禾擬莖草螟預測與防治技術(shù)規(guī)范
- DB31/T 1150-2019厚葉巖白菜組培生產(chǎn)技術(shù)規(guī)范
- 2024年放射性核素遙控后裝機資金申請報告代可行性研究報告
- 票務(wù)代理在線支付故障處理考核試卷
- 2024年中低壓電纜連接件資金籌措計劃書代可行性研究報告
- (4篇)高中三年個人發(fā)展規(guī)劃報告
- 2025年中國北京市區(qū)域經(jīng)濟行業(yè)市場前景預測及投資價值評估分析報告
- 離婚協(xié)議簽署地指定及跨地域執(zhí)行效力協(xié)議
- 高端郵輪運營管理有限責任合作協(xié)議
- 影視動畫渲染節(jié)點租賃與后期特效研發(fā)服務(wù)協(xié)議
- 2024年江蘇省南京市玄武區(qū)玄武外國語學校八年級下學期物理期末模擬卷1
- 河砂、碎石組織供應(yīng)、運輸、售后服務(wù)方案
- 免疫學實驗技術(shù)智慧樹知到期末考試答案章節(jié)答案2024年哈爾濱醫(yī)科大學大慶校區(qū)
- 2024年福建省泉州市惠安縣綜治網(wǎng)格員招聘173人歷年高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 《城軌通信信號基礎(chǔ)設(shè)備應(yīng)》課件-FTGS軌道電路
- 浙江省寧波市鎮(zhèn)海區(qū)人教PEP版2022年小學畢業(yè)考試英語試卷【含答案】
- 中班語言《傘》課件
- 心悸-《中醫(yī)內(nèi)科學》教案
- 營區(qū)物業(yè)服務(wù)營區(qū)物業(yè)服務(wù)保密措施
- 托槽粘結(jié)醫(yī)學課件
- 藍曬創(chuàng)作方案
評論
0/150
提交評論