數據挖掘期末實驗報告_第1頁
數據挖掘期末實驗報告_第2頁
數據挖掘期末實驗報告_第3頁
數據挖掘期末實驗報告_第4頁
數據挖掘期末實驗報告_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘技術期末報告理學院姓名:學號:聯系電話:專業班級:評分:優|良|中|及格|不及格 一、實驗目的 基于從UCI公開數據庫中下載的數據,使用數據挖掘中的分類算法,用Weka平臺的基本功能對數據集進行分類,對算法結果進行性能比較,畫出性能比較圖,另外針對不同數量的訓練集進行對比實驗,并畫出性能比較圖訓練并測試。 二、實驗環境實驗采用Weka平臺,數據使用來自從UCI公開數據庫中下載,主要使用其中的Breast Cancer Wisc-onsin (Original) Data Set數據。Weka是懷卡托智能分析系統的縮寫,該系統由新西蘭懷卡托大學開發。Weka使用Java寫成的,并且限制在GNU通用公共證書的條件下發布。它可以運行于幾乎所有操作平臺,是一款免費的,非商業化的機器學習以及數據挖掘軟件。Weka提供了一個統一界面,可結合預處理以及后處理方法,將許多不同的學習算法應用于任何所給的數據集,并評估由不同的學習方案所得出的結果。三、實驗步驟3.1數據預處理本實驗是針對威斯康辛州(原始)的乳腺癌數據集進行分類,該表含有Sample code number(樣本代碼),Clump Thickness(叢厚度),Uniformity of Cell Size(均勻的細胞大?。?, Uniformity of Cell Shape (均勻的細胞形狀),Marginal Adhesion(邊際粘連),Single Epithelial Cell Size(單一的上皮細胞大?。?,Bare Nuclei(裸核),Bland Chromatin(平淡的染色質),Normal Nucleoli(正常的核仁), Mitoses(有絲分裂),Class(分類),其中第二項到第十項取值均為1-10,分類中2代表良性,4代表惡性。 通過實驗,希望能找出患乳腺癌客戶各指標的分布情況。該數據的數據屬性如下:1. Sample code number(numeric),樣本代碼; 2. Clump Thickness(numeric),叢厚度;3.Uniformity of Cell Size(numeric)均勻的細胞大??;4. Uniformity of Cell Shape(numeric),均勻的細胞形狀;5.Marginal Adhesion(numeric),邊際粘連;6.Single Epithelial Cell Size(numeric),單一的上皮細胞大??;7.Bare Nuclei(numeric),裸核;8.Bland Chromatin(numeric),平淡的染色質;9. Normal Nucleoli(numeric),正常的核仁;10.Mitoses(numeric),有絲分裂;11.Class(enum),分類。3.2數據分析由UCI公開數據庫得到一組由逗號隔開的數據,復制粘貼至excel表中,選擇數據分列下一步逗號完成,該數據是有關乳腺癌數據集,有11個屬性,分別為Sample code number(樣本代碼),Clump Thickness(叢厚度),Uniformity of Cell Size(均勻的細胞大小),Uniformity of Cell Shape (均勻的細胞形狀),Marginal Adhesion(邊際粘連),Single Epithelial Cell Size(單一的上皮細胞大?。?,Bare Nuclei(裸核),Bland Chromatin(平淡的染色質),Normal Nucleoli(正常的核仁), Mitoses(有絲分裂),Class(分類),因為復制粘貼過來的數據沒有屬性,所以手工添加一行屬性名。Weka分類數據需把excel保存為一個csv文件。圖1中顯示的是使用“Exploer”打開“乳腺癌數據集.csv.arff”的情況.如圖1所示:(圖1)3.2.1 數據預處理很明顯發現,所用的數據都是(numeric)數值型的,需要將數值型離散化,將“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”,“Class” 離散化。我們需要借助Weka中名為“Discretize”的Filter來完成。在區域2中點“Choose”,出現一棵“Filter樹”,逐級找到“weka.filters.unsupervised.attribute.Discretize”點擊,即可?,F在“Choose”旁邊的文本框應該顯示“Discretize -B 10 -M -0.1 -R first-last”。 如圖箭頭所示,點擊這個文本框會彈出新窗口以修改離散化的參數。我們需將第1,2,3,4,5,6,7,8,9,10項離散化,其中第一項為id,可移除。把attributeIndices右邊改成“1,2,3,4,5,6,7,8,9,10”。我們把這兩個屬性都分成10段,于是把“bins”改成“10”。其它不變。點“OK”回到“Explorer”,可以看到“Clump Thickness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”, 已經被離散化成分類型的屬性。經移除后剩10項屬性,其中一項如圖2所示,10項屬性可視化如圖3所示:(圖2)(圖3)3.3.1決策樹分類用“Explorer”打開剛才得到的“乳腺癌數據集.csv.arff”,并切換到“Class”。點“Choose”按鈕選擇“tree(weka.classifiers.trees.j48)”,這是Weka中實現的決策樹算法。得到結果如圖4和圖5所示:(圖4)(圖5)這個是針對第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項運用C4.5決策算法得到誤差分析的結果,分析可知總共有699個數據進行分類,Clump Thickness(叢厚度)其中102個為正確分類,正確分類率為26.03726%,517個為錯誤分類,錯誤分類為73.9268%。而第九項Mitoses有絲分裂項也是分析699個數據,其中正確分類有579個數據,正確率為82.8326%,錯誤分類的有120個,錯誤分類的有17.1674%。根據混淆矩陣,被錯誤分類實例很多如圖(圖6)3.3.2貝葉斯分類為了與上面決策樹作比較,貝葉斯也選擇第一項第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項,得到結果如下圖7,8所示:(圖7)(圖8)這個是針對第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項運用貝葉斯算法得到誤差分析的結果,分析可知總共有699個數據進行分類,Clump Thickness(叢厚度)其中198個為正確分類,正確分類率為28.3262%,501個為錯誤分類,錯誤分類為71.6738%。而第九項Mitoses有絲分裂項其中正確分類有467個數據,正確率為66.8097%,錯誤分類的有232個,錯誤分類的有33.1903%。根據混淆矩陣,被錯誤分類實例很多,相對來說,Clump Thickness叢厚度用兩種方法混淆程度差不多,錯綜復雜,而Mitoses有絲分裂項用貝葉斯分類明顯混淆矩陣要比用決策樹方法混淆率要低,中間第六項到就第九項明顯混響不是很多,如圖9所示?;谝陨蟽煞N分析,建議用貝葉斯分類方法分類,降低混淆率,提高正確率。(圖9)3.3.3K最近鄰算法分類在剛才進行決策樹分類和貝葉斯分類的的的那個頁面,點“Choose”按鈕選擇“laze-ibk”,選擇Cross-Validatioinfolds=10,然后點擊“start”按鈕:同樣選擇圖中箭頭指向選擇屬性,然后點擊“start”按鈕:為了與上面決策樹和貝葉斯作比較,K最近鄰算法分類也選擇第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項,得到結果如下圖10,11所示:(圖10)(圖11)這個是針對第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項運用K最近鄰算法得到誤差分析的結果,分析可知總共有699個數據進行分類,Clump Thickness(叢厚度)其中191個為正確分類,正確分類率為27.3247%,508個為錯誤分類,錯誤分類為72.6753%。而第九項Mitoses有絲分裂項其中正確分類有546個數據,正確率為78.1116%,錯誤分類的有153個,錯誤分類的有21.8884%。根據混淆矩陣,被錯誤分類實例很多,相對來說,Clump Thickness叢厚度與前兩個算法混淆程度差不多,錯綜復雜,甚至比前兩個更要復雜,而Mitoses有絲分裂項用K最近鄰算法明顯混淆矩陣要比用決策樹方法和貝葉斯方法混淆率要低,中間第四項到就最后明顯混響不是很多,如圖12所示:(圖12)3.4三種分類方法結果比較如表所示:決策樹貝葉斯 K最近鄰算法Clump Thickness正確率26.03726%28.3262%27.3247%,Clump Thickness標準誤差0.31090.31190.3227Mitoses正確率82.8326%66.8097%78.1116%Mitoses標準誤差0.17550.21040.1989四、三種算法在進行測試的性能比較要進行性能比較,則需比較這10項屬性的預測,同上文一樣,這里只比較第一項Clump Thickness叢厚度和第九項Mitoses有絲分裂項,點“more options.”按鈕,選勾選“out prediction”,其他不勾選,然后點擊“OK”按鈕如圖13所示:(圖13)得到性能測試結果如下,圖14分別為第一項Clump Thickness叢厚度用決策樹方法、貝葉斯、K最近鄰算法預測的結果,圖15分別為第九項Mitoses有絲分裂項用決策樹方法、貝葉斯、K最近鄰算法預測的結果。結果如下:(圖14)分析第一項Clump Thickness叢厚度。性能分析應該包括兩個部分,一個部分是測試速度,另一個部分是測試的質量。由于本次使用所使用的數據量一般,不是很多,在測試速度的對比上相差太少,無法進行準確的分析。而在測試質量上,可以從上述數據中很明顯得到,在“error”(錯誤項),決策樹和K最近鄰算法很多加號,這說明錯誤率很大,從而導致分類質量的降低;而對于“probability distribution”(概率分布項),決策樹和K最近鄰算法分布很混亂,前六項屬性的概率分布波動較大,而貝葉斯與其相比,“error”(錯誤項)幾乎無“+”,說明其錯誤率相對其他兩種方法,貝葉斯的錯誤率降低很多,而且在“probability distribution”(概率分布項),上,分布很整齊,所以從性能角度上講,貝葉斯算法好一點。(圖15)觀察圖15,分析第九項Mitoses有絲分裂項,同分析第一項Clump Thickness叢厚度一樣。在測試速度的對比上相差太少,無法進行準確的分析。而在測試質量上,可以從上述數據中很明顯得到,在“error”(錯誤項),決策樹與貝葉斯相比,明顯決策樹加號要多,這說明決策樹算法錯誤率很大,從而導致分類質量的降低,而比較貝葉斯和K最近鄰算法,“error”(錯誤項)貝葉斯錯誤率明顯比K最近鄰算法要多,而對于“probability distribution”(概率分布項),貝葉斯與K最近鄰算法分布相對混亂,對于K最近鄰算法,第一項屬性Clump Thickness叢厚度的所有概率分布大致相同,對于第3、5、11、12.項數據,分布很整齊。所以從性能角度上講,K最近鄰算法好一點。五、實驗總結以上實驗是對Breast Cancer Wisconsin (Original) Data Set數據做了一些分析,通過本次數據挖掘實驗,重新學習了一下數據挖掘的相關概念和知識,理解了數據挖掘的用途和使用步驟,進一步學習了W

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論