Weka數據挖掘軟件使用指引_第1頁
Weka數據挖掘軟件使用指引_第2頁
Weka數據挖掘軟件使用指引_第3頁
Weka數據挖掘軟件使用指引_第4頁
Weka數據挖掘軟件使用指引_第5頁
已閱讀5頁,還剩2頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Weka數據挖掘軟件使用指南1. Weka簡介該軟件是 WEKA 的全名是懷卡托智能分析環境( Waikato Environment for Knowledge Analysis),它的源代碼可通過 http:/www.cs.waikato.ac.nz/ml/weka 得到。Weka作為一個公開 的數據挖掘工作平臺,集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預 處理,分類,回歸、聚類、關聯規則以及在新的交互式界面上的可視化。如果想自己實現數 據挖掘算法的話,可以看一看Weka的接口文檔。在Weka中集成自己的算法甚至借鑒它的方 法自己實現可視化工具并不是件很困難的事情。2.

2、Weka啟動打開Weka主界面后會出現一個對話框,如圖:主要使用右方的四個模塊,說明如下:Explorer:使用Weka探索數據的環境,包括獲取關聯項,分類預測,聚簇 等;Experimenter:運行算法試驗、管理算法方案之間的統計檢驗的環境;KnowledgeFlow 這個環境本質上和Explorer所支持的功能是一樣的,但是它有一個可以 拖放的界面。它有一個優勢,就是支持增量學習;SimpleCLI:提供了一個簡單的命令行界面,從而可以在沒有自帶命令行的操作系統中直 接執行Weka命令(某些情況下使用命令行功能更好一些)。3.主要操作說明點擊進入Explorer模塊開始數據探索環境。3.

3、1主界面進入Explorer模式后的主界面如下:3.1.1標簽欄主界面最左上角(標題欄下方)的是標簽欄,分為五個部分,功能依次是:Preprocess教據預處理):選擇和修改要處理的數據;Classify份類):訓練和測試關丁分類或回歸的學習方案;Cluster(聚類):從數據中學習聚類;Associate慶聯):從數據中學習關聯規則;Select attributes屬性選擇):選擇數據中最相關的屆性;Visualize視化):查看數據的交互式二維圖像。3.1.2入、編輯數據標簽欄下方是載入數據欄,功能如下:Open file:打開一個對話框,允許你瀏覽本地文件系統上的數據文件(.dat);

4、Open URL:請求一個存有數據的URL地址;Open DB:從數據庫中讀取數據;Generate:從一些數據生成器中生成人造數據。3.1.3其他界面說明接下來的主界面中依次是 Filter (篩選器),Currtent relation (當前關系)、Attributes (M 性信息)、Selected attribute (選中的屆性信息)以及Class (類信息),分別介紹如下:Filter在預處理階段,可以定義篩選器來以各種方式對數據進行變換。Filter 一欄用丁對各種篩選器進行必要設置。Filter一欄的左邊是一個Choose按鈕。點擊這個按鈕就可選擇 Weka中 的某個篩選器

5、。用鼠標左鍵點擊這個choose邊的顯示框,將出現GenericObjectEditor對話框。 用鼠標右鍵點擊將出現一個菜單,你可從中選擇,要么在GenericObjectEditorM話框中顯示相關屆性,要么將當前的設置字符復制到剪貼板。Currtent relation顯示當前打開的數據文件的基本信息:Relation關系名),Instance實例數)以及Attributes(屆性個數)Attributes顯示數據文件中的屆性信息,并且包含四個操作按鍵:All|HoneInvertPatternAll:所有選擇框都被勾選;None:所有選擇框被取消;Invert:已勾選的選擇框都被取消,

6、反之亦然;Pattern:讓用戶基丁 Perl 5正則表達式來選擇屆性。例如,用*_id選擇所有名稱以_id結束 的屆性。底下顯示的就是數據文件包含的屆性,可以進行勾選等操作。特別地,當數據預處理是不要某個屆性時,將其各選,點擊列表正下方的 Remove®鍵即可刪除這一屆性:顯示勾選的屆性的基本信息。Class顯示屆性中數據元組的直方圖。點擊Visualize all按鍵可以查看所有屆性中元組的直方圖 3.2實現基本數據挖掘功能:3.2.1 Associate (關聯規則)注意:目前,Weka的關聯規則分析功能僅能用來作示范,不適合用來挖掘大型數據集。各部分功能說明如下:Associ

7、ator切換到Associated項卡。單擊choose®鍵,可以選擇關聯規則算法,系統默認關聯規則 分析算法是Apriori算法。選擇關聯規則算法后,點Choose邊的文本框修改默認的參數,彈出的窗口中點 More可 以看到各參數的說明。一下簡列幾項:upperBoundMinSupport:最小支持度上限removeAllMissingCols :移除具有遺失值的歹U lowerBoundMinSupport :最小支持度下限 outputItemSets :如果有可能也輸出項集 significanceLevel:顯著性水平classIndex:確定分類屆性,如果設為-1,則最

8、后一個屆性為分類屆性 treatZeroAsMissing :將遺失值全部置為0numRules:在某種關聯規則下取出的滿足條件的規則數; metricType:關聯、程度指標;注意:各種關聯規則算法都是尤其使用范圍的,并不是所有的屆性的數據類型都能被某 一算法處理,典型的例如Apriori算法。因此可以在choose拉菜單中選擇Filter選項,在其中 勾選待處理數據的屆性的類型以濾除無法使用的算法。要想知道每種算法都是用哪些數據類 型,可以左擊choose邊的文本框,在彈出的菜單欄中單擊capabilities選項可以看到這種算法 能夠處理的數據類型。Result list點擊Associ

9、ator下方的start®鍵可以開始進行關聯項分析,結果歹0表即出現在Result list中,右擊出現更多選項可供選擇。Associator output這里顯示關聯分析結果,如圖為一個例子:一次顯示了 10個符合條件的關聯規則,并且在其后顯示了關聯規則的四項指標以供參考。3.2.2 Classify (分類預測)該部分實現數據挖掘中的分類與預測功能,提供了各種主要的分類預測算法供使用者選 擇。下面是界面各部分的介紹:Classifier在chooser欄中選擇需要的分類算法,同樣地方法,每當選擇一個算法,這個算法便在 choos也邊的文本框中進行顯示,單擊他會出現一個菜單,其中包

10、含了一些參數的設定和more 以及capabilities選項,欠著用來獲取那些需要設定參數的具體信息,后者用來獲取算法適合的屆性數據類型,這一點是相似的,因此在對數據進行處理是也應該注意數據的屆性類型,單 擊choos故下拉菜單中選擇Filter按鍵可以進行數據類型的選擇從而過濾掉不能使用的算法。Test option提供四種測試模式:1. Using training set.艮據分類器在用來訓練的實例上的預測效果來評價它。2. Sup plied test set.從文件載入的一組實例,根據分類器在這組實例上的預測效果來評價它。 點擊Set按鈕將打開一個對話框來選擇用來測試的文件。3.

11、Cross-validation使用交義驗證來評價分類器,所用的折數填在Folds文本框中。4. Percentage splits數據集中按一定白分比取出部分數據放在一邊作測試用,根據分類器這些實例上預測效果來評價它。取出的數據量由 一欄中的值決定。當一切準備就緒時,點擊star®鍵開始分類過程,完成后Result list中會顯示結果列表, 并且Classifier output中會顯示出結果。右擊Result list中的結果,可以看見多個選項,選擇 Visualize tree,新窗口里可以看到圖形模式的決策樹。建議把這個新窗口最大化,然后點右鍵, 選“Fit to scre

12、en可'以把這個樹看活楚些。先運行一個結果解釋其中一些內容,如圖所示:Correctly Classified Instances2CIncorreczly Clasaified Instances9431.3333 1Kappi staniatlc0.357flMean abaci Lute erroi0.373RdqV mean mquared ecror0.4316Relative absolute error"3791 %Rcot relative squared error96.6145 玉Total Niuiiber of Inatances30Q= Detail

13、ed Ajccuracy By ClasTP Ra 用FP RgPr&cijionRecallF-MeasureROC Ars0.5360 A650.7120-536o.fili0.663YESo.eis0.4640.673Q.eis0.7370.5 53JOKe iqhted fivg.Cl .63?0.3360.6910_«S7o.ea0.Confusion=a b <-q classified as 74 4 I a = YES 30 132 I b = BQ第一行的Correctly Classified Instances示當前參與分類的實例中被正確分類的實例

14、數目,第 二行Incorrectly Classified Instances!示未被正確分類的實例數目。Confuflion Matrix -a b -<dags i fled as74 64 I d = YES30 132 I b - tI0關丁 Confusion Matrix ,解釋如下:原本“pe® “YES的實例,有74個被正確的預測為“YES,有64個錯誤的預測成了 “NO; 原本“pe® "NO的實例,有30個被錯誤的預測為“YES,有132個正確的預測成了“NO。74+64+30+132 = 30況實例總數,而(74+132)/300 =

15、0.68667正好是正確分類的實例所占比例。 這個矩陣對角線上的數字越大,說明預測得越好。更多選項及解釋內容參見:3.3.3Cluster (聚簇分析)聚簇分析的原理就是將為標定類的數據根據其相似性分為幾個類,在同一類中的數據元組具有較強的相似性,而在不同類中的數據元組則沒有相似性或者很弱?,F對其主要界面說明如下:Clusterer單擊choose,在這里可以選擇適當的聚簇算法,選擇后該算法會出現在 choose邊的文 本框中,在單擊彈出的菜單可以對參數進行設定。 同時在選擇mor城者capabilities項可以查 看每種設定表示的具體信息和該算法的適用范圍(包括適用的數據類型信息等)。Cluster modeCluster Mode一欄用來決定依據什么來聚類以及如何評價聚類的結果。前三個選項和分類的情 形是一樣的:Use training set、Supplied test set 和 Percentage splits別在丁現在的數據是要聚 集到某個類中,而不是預測為某個指定的類別。第四個模式, Classes to clusters evaluation 是要比較所得到的聚類與在數據中預先給出的類別吻合得怎樣。和Classify®板一樣,下方的下拉框是用來選擇作為類別的屆性的。在 Cl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論