不平衡數(shù)據(jù)實驗報告_第1頁
不平衡數(shù)據(jù)實驗報告_第2頁
不平衡數(shù)據(jù)實驗報告_第3頁
不平衡數(shù)據(jù)實驗報告_第4頁
不平衡數(shù)據(jù)實驗報告_第5頁
全文預(yù)覽已結(jié)束

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

實驗報告:不平衡數(shù)據(jù)分類23020102203966宿玥不平衡數(shù)據(jù)的概況:不平衡數(shù)據(jù)集在現(xiàn)實生活中廣泛存在。在不平衡數(shù)據(jù)集中,數(shù)量少處于劣勢的小類的識別往往是分類的重點。不平衡數(shù)據(jù)集中,小類樣本的分布比較稀疏,并且往往被大量的大類樣本所包圍。這為小類特征的學(xué)習(xí)帶來了極大的挑戰(zhàn)。不平衡數(shù)據(jù)集分類難的原因與大樣本相比,小類樣本數(shù)量上稀少。僅有很少的少數(shù)類樣本數(shù)據(jù)。僅有很少的少數(shù)類樣本分兩種情況:少數(shù)類樣本絕對缺乏和少數(shù)類樣本相對缺乏。對情況1,因少數(shù)類所包含的信息就會很有限,從而難以確定少數(shù)類數(shù)據(jù)的分布,即在其內(nèi)部難以發(fā)現(xiàn)規(guī)律,進而造成少數(shù)類的識別率低。對情況2,少數(shù)類樣本數(shù)據(jù)相對缺乏不同于少數(shù)類樣本數(shù)據(jù)的絕對缺乏,相對缺乏是指少數(shù)類樣本在絕對數(shù)量上并不少,但相對于多數(shù)類來說它的樣本數(shù)目很少。在樣本相對缺少的情況下,同樣不利于少數(shù)類的判別,這是因為多數(shù)類樣本會模糊少數(shù)類樣本的邊界,且使用貪心搜索法難以把少數(shù)類樣本與多數(shù)類區(qū)分開來,而更全局性的方法通常難以處理。解決策略:從數(shù)據(jù)層面上:采用的是過采樣。基本思想就是通過改變訓(xùn)練數(shù)據(jù)的分布來消除或減小數(shù)據(jù)的不平衡,過抽樣方法通過增加少數(shù)類樣本來提高少數(shù)類的分類性能。從算法層面上:采用代價敏感學(xué)習(xí)與集成學(xué)習(xí)方法結(jié)合代價敏感學(xué)習(xí):在傳統(tǒng)的分類算法的基礎(chǔ)上引入代價敏感因子,設(shè)計出代價敏感的分類算法.代價敏感的學(xué)習(xí)中不同類的錯分代價是不同的,通常多數(shù)類的代價比少數(shù)類大得多,對小樣本賦予較高的代價,大樣本賦予較小的代價,期望以此來平衡樣本之間的數(shù)目差異。集成學(xué)習(xí)方法:使用各種不同的分類器進行集成,異態(tài)集成學(xué)習(xí)的每個基本算法都有獨到之處,因而某種基本算法會對某類特定數(shù)據(jù)樣本比其余的基本算法更為有效。實驗過程:選用集成分類器為:AdaBoostM1和J48選用AdaBoostM1的思路:AdaBoostM1是二元分類算法,思想與AdaBoost相似。AdaBoost主要思想:如圖圖1所示,我們需要用一些線段把紅色的球與深藍色的球分開,然而如果僅僅畫一條線的話,是分不開的。圖1根據(jù)Adaboost算法來進行劃分,如圖2,先畫出一條錯誤率最小的線段,但是左下腳的深藍色球被錯誤劃分到紅色區(qū)域,因此增加被錯誤球的權(quán)重。再下一次劃分時,將更加考慮那些權(quán)重大的球,如圖3所示,再畫一條線段,仍然有錯分的,再增加錯分的權(quán)重。再下一次劃分時,將更加考慮那些權(quán)重大的球,最終得到了一個準確的劃分,如下圖所示3、根據(jù)AdaboostM1思想,設(shè)置反例與正例的權(quán)值比,進行以下幾組的實驗:反例與正例的權(quán)值比為1:2反例與正例的權(quán)值比為1:4反例與正例的權(quán)值比為1:64、實驗結(jié)果及分析:實驗所用數(shù)據(jù)為cmc數(shù)據(jù)實驗結(jié)果:第(1)組:===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.3150.0980.4840.3150.3820.60910.9020.6850.8180.9020.8580.609-1WeightedAvg.0.7690.5520.7430.7690.750.609-----------------------CorrectlyClassifiedInstances113376.9179%IncorrectlyClassifiedInstances34023.0821%Kappastatistic0.2476Meanabsoluteerror0.2308Rootmeansquarederror0.4804Relativeabsoluteerror65.9153%Rootrelativesquarederror114.859%TotalNumberofInstances1473----------------------===ConfusionMatrix===ab<--classifiedas105228|a=11121028|b=-1第(2)組:===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.3360.0960.5050.3360.4040.6210.9040.6640.8230.9040.8620.62-1WeightedAvg.0.7750.5350.7510.7750.7580.62-----------------------CorrectlyClassifiedInstances114277.5289%IncorrectlyClassifiedInstances33122.4711%Kappastatistic0.2719Meanabsoluteerror0.2247Rootmeansquarederror0.474Relativeabsoluteerror64.1705%Rootrelativesquarederror113.3286%TotalNumberofInstances1473----------------------===ConfusionMatrix===ab<--classifiedas112221|a=11101030|b=-1第(3)組===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.3150.0840.5220.3150.3930.61610.9160.6850.8210.9160.8660.616-1WeightedAvg.0.780.5490.7530.780.7590.616-----------------------CorrectlyClassifiedInstances114978.0041%IncorrectlyClassifiedInstances32421.9959%Kappastatistic0.2688Meanabsoluteerror0.22Rootmeansquarederror0.469Relativeabsoluteerror62.8134%Rootrelativesquarederror112.1238%TotalNumberofInstances1473----------------------===ConfusionMatrix===ab<--classifiedas105228|a=1961044|b=-1五、實驗總結(jié):通過以上的策略的實驗結(jié)果與原本的數(shù)據(jù)進行比較。提高反例權(quán)重和過抽樣方法可以提高不平衡分類的精度。不平衡數(shù)據(jù)的存在是妨礙機器學(xué)習(xí)被廣泛使用的一個重要原因,不平衡問題普遍存在于許多實際應(yīng)用領(lǐng)域中,如何有效地提高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論