




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342023/6/291綜述What
從全部特征中選取一個(gè)特征子集,使構(gòu)造出來的模型更好。Why
在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用中,特征數(shù)量往往較多,其中可能存在不相關(guān)的特征,特征之間也可能存在相互依賴,容易導(dǎo)致如下的后果:分析特征、訓(xùn)練模型耗時(shí)長模型復(fù)雜、推廣能力差引起維度災(zāi)難2023/6/292維度災(zāi)難隨著維數(shù)的增加,特征空間的體積指數(shù)增加,從而導(dǎo)致各方面的成本指數(shù)增加樣本數(shù)量存儲空間計(jì)算量……如何從中選出有用的特征??2023/6/293單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342023/6/294特征選擇流程GeneratorEvaluationStopRuleValidationSubsetYesNoOriginalFeatureSet2023/6/295兩個(gè)主要步驟產(chǎn)生過程特征子集的產(chǎn)生可以看作是一個(gè)搜索過程,搜索空間中的每一個(gè)狀態(tài)都是一個(gè)可能特征子集。搜索的算法分為完全搜索(Complete),啟發(fā)式搜索(Heuristic),隨機(jī)搜索(Random)3大類。評價(jià)函數(shù)評價(jià)函數(shù)是評價(jià)一個(gè)特征子集好壞的準(zhǔn)則特征的評估函數(shù)分為五類:相關(guān)性,距離,信息增益,一致性和分類錯(cuò)誤率。2023/6/296搜索算法之完全搜索完全搜索分為窮舉搜索與非窮舉搜索兩類廣度優(yōu)先搜索(BFS)分支限界搜索(BAB)定向搜索(BS)最優(yōu)優(yōu)先搜索(BestFirstSearch)BS:首先選擇N個(gè)得分最高的特征作為特征子集,將其加入一個(gè)限制最大長度的優(yōu)先隊(duì)列,每次從隊(duì)列中取出得分最高的子集,然后窮舉向該子集加入1個(gè)特征后產(chǎn)生的所有特征集,將這些特征集加入隊(duì)列。2023/6/297搜索算法之啟發(fā)式搜索啟發(fā)式搜索序列前向選擇(SFS)序列后向選擇(SBS)雙向搜索(BDS)增L去R選擇算法(LRS)L和R的選擇是關(guān)鍵序列浮動選擇(SequentialFloatingSelection)決策樹(DTM)LRS兩種形式:
<1>算法從空集開始,每輪先加入L個(gè)特征,然后從中去除R個(gè)特征,使得評價(jià)函數(shù)值最優(yōu)。(L>R)在訓(xùn)練樣本集上運(yùn)行C4.5或其他決策樹生成算法,待決策樹充分生長后,再在樹上運(yùn)行剪枝算法。則最終決策樹各分支處的特征就是選出來的特征子集。一般使用信息增益作為評價(jià)函數(shù)。L和R怎么確定??2023/6/298搜索算法之隨機(jī)算法隨機(jī)算法隨機(jī)產(chǎn)生序列選擇算法(RGSS)隨機(jī)產(chǎn)生一個(gè)特征子集,然后在該子集上執(zhí)行SFS與SBS算法模擬退火算法(SA)以一定的概率來接受一個(gè)比當(dāng)前解要差的解,因此有可能會跳出這個(gè)局部的最優(yōu)解,達(dá)到一個(gè)全局次最優(yōu)解遺傳算法(GA)
共同缺點(diǎn):依賴于隨機(jī)因素,有實(shí)驗(yàn)結(jié)果難以重現(xiàn)2023/6/299評價(jià)函數(shù)作用是評價(jià)產(chǎn)生過程所提供的特征子集的好壞按照其工作原理,評價(jià)函數(shù)可以分為三種模型:過濾模型(FilterModel)封裝模型(WrapperModel)混合模型(EmbeddedModel)被稱為特征選擇的經(jīng)典三刀:飛刀(Filter)彎刀(Wrapper)電刀(Embedded)2023/6/2910評價(jià)函數(shù)—過濾模型根據(jù)特征子集內(nèi)部的特點(diǎn)來衡量其好壞,如歐氏距離、相關(guān)性、信息熵等特征子集在學(xué)習(xí)算法運(yùn)行之前就被選定學(xué)習(xí)算法用于測試最終特征子集的性能特點(diǎn):簡單、效率高,但精度差2023/6/2911評價(jià)函數(shù)—封裝模型學(xué)習(xí)算法封裝在特征選擇的過程中,用特征子集在學(xué)習(xí)算法上得到的挖掘性能作為特征子集優(yōu)劣的評估準(zhǔn)則。與過濾模型相比,精度高、但效率低。根本區(qū)別在于對學(xué)習(xí)算法的使用方式2023/6/2912評價(jià)函數(shù)—混合模型混合模型把這兩種模型進(jìn)行組合,先用過濾模式進(jìn)行初選,再用封裝模型來獲得最佳的特征子集。2023/6/2913常用評價(jià)函數(shù)特征的評價(jià)函數(shù)分為五類:
相關(guān)性;距離;信息增益;一致性;分類錯(cuò)誤率
前四種屬于過濾模型,分類錯(cuò)誤率屬于封裝模型從概率論的角度
相關(guān)系數(shù):值域范圍:[-1,+1]絕對值越大,相關(guān)性越大2023/6/2914常用評價(jià)函數(shù)從數(shù)理統(tǒng)計(jì)的角度(假設(shè)檢驗(yàn))T檢驗(yàn)檢驗(yàn)與相關(guān)系數(shù)在理論上非常接近,但更偏重于有限樣本下的估計(jì)T檢驗(yàn)統(tǒng)計(jì)量:其中,n為樣本容量,、為樣本均值和方差,為總體方差。
2023/6/2915常用評價(jià)函數(shù)從信息論角度條件熵與“相關(guān)性”負(fù)相關(guān)信息增益相對信息增益互信息量(MutualInformation)2023/6/2916常用評價(jià)函數(shù)IR領(lǐng)域的度量(逆)文檔詞頻(inversedocumentfrequency)詞強(qiáng)度(termstrength)已知一個(gè)詞(特征)在某文檔(實(shí)例)中出現(xiàn),該詞在同類(目標(biāo)函數(shù)值相同)文檔中出現(xiàn)的概率為詞強(qiáng)度總文檔數(shù)包含詞(特征)t的文檔數(shù)2023/6/2917常用評價(jià)函數(shù)學(xué)習(xí)相關(guān)的度量分類準(zhǔn)確率
準(zhǔn)確率、召回率、F值、AUC等用單一維特征進(jìn)行分類訓(xùn)練,某種分類準(zhǔn)確率指標(biāo)作為特征的有效性度量復(fù)雜度較大不一定有合適的準(zhǔn)確率指標(biāo)2023/6/2918單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342023/6/2919過濾模型—FishScoreFisherScore:計(jì)算兩個(gè)分布的距離第i個(gè)特征的權(quán)重公式為:
其中uij和pij分別是第i個(gè)特征在第j類中的均值和方差,nj為第j類中實(shí)例的個(gè)數(shù),ui為第i個(gè)特征的均值,K為總類別數(shù)。缺點(diǎn):容易產(chǎn)生冗余特征,f1,f2
忽略組合特征,f1|f2
2023/6/2920過濾模型—Chi-Squaredtest卡方檢驗(yàn)利用統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn)思想,利用卡方統(tǒng)計(jì)量來衡量特征和類別之間的相關(guān)程度??ǚ街倒剑浩渲校琋是文檔總數(shù),A是
包含詞t且
屬于c類的文檔數(shù)目B是
包含詞t且不屬于c類的文檔數(shù)目C是不包含詞t且
屬于c類的文檔數(shù)目D是不包含詞t且不屬于c類的文檔數(shù)目sklearn.feature_selection.chi2(X,
y)
2023/6/2921過濾模型—ReliefRelief:根據(jù)各個(gè)特征和類別的關(guān)系賦予特征不同的權(quán)重,權(quán)重小于某閾值的將被移除。2023/6/2922Relief算法的缺點(diǎn)Relief算法屬于特征權(quán)重算法,該算法缺點(diǎn)在于:他們可以捕獲特征與目標(biāo)概念間的相關(guān)性,卻不能發(fā)現(xiàn)特征間的冗余性。Relief-F是Relief的升級版,可用于多分類經(jīng)驗(yàn)證明除了無關(guān)特征對學(xué)習(xí)任務(wù)的影響,冗余特征同樣影響學(xué)習(xí)算法的速度和準(zhǔn)確性,也應(yīng)盡可能消除冗余特征。2023/6/2923封裝模型—增量法封裝模型首先需要選用較好學(xué)習(xí)算法,如RF、SVM、LR、KNN等可以使用前面提到的各種縮小搜索空間的嘗試,其中最經(jīng)典的是啟發(fā)式搜索,概括來說主要分為兩大類:增量法(SFS:sequentialforwardselection)減量法(SBS)2023/6/2924增量法試驗(yàn)結(jié)果2023/6/2925增/減量法優(yōu)缺點(diǎn)復(fù)雜度關(guān)于維數(shù)為或選單個(gè)特征采用評價(jià)準(zhǔn)則排序的方式為一次選單個(gè)特征采用測試全部特征的方式為二次本質(zhì)上是貪心算法某些組合無法遍歷可能陷入局部極值2023/6/2926單擊此處添加文字內(nèi)容綜述單擊此處添加文字內(nèi)容特征選擇流程單擊此處添加文字內(nèi)容幾種常用的特征選擇算法單擊此處添加文字內(nèi)容總結(jié)12342023/6/2927總結(jié)123特征選擇是機(jī)器學(xué)習(xí)領(lǐng)域中重要的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 航空航天復(fù)合材料 課件知識點(diǎn)4 納米復(fù)合材料
- 農(nóng)電工基礎(chǔ)試題及答案
- 快樂工作總結(jié)匯報(bào)
- 中國電信業(yè)務(wù)培訓(xùn)
- 小班熊貓美術(shù)課件
- 安全事故范例培訓(xùn)
- 整容術(shù)前護(hù)理常規(guī)
- 毛球畫花卉課件
- 大出血的急救護(hù)理措施
- 主動脈瘤超聲表現(xiàn)
- 卡粘式連接薄壁不銹鋼管道工程技術(shù)規(guī)程
- 老公出軌保證書范文
- 2024年山東普通高中學(xué)業(yè)水平等級考試化學(xué)(原卷版)
- 接警員試題題庫
- 湖南省岳陽市2024年八年級下學(xué)期期末物理試卷附答案
- DZ∕T 0284-2015 地質(zhì)災(zāi)害排查規(guī)范(正式版)
- 《風(fēng)電功率預(yù)測功能規(guī)范》
- 關(guān)于讀后續(xù)寫的可行操作課件-高三英語一輪復(fù)習(xí)
- 港口企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)分析報(bào)告
- 2023年貴州黔西南州專項(xiàng)招聘國企業(yè)工作人員21人考前自測高頻難、易考點(diǎn)模擬試題(共500題)含答案詳解
- 中醫(yī)護(hù)理實(shí)訓(xùn)報(bào)告總結(jié)
評論
0/150
提交評論