




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 Weka 數據挖掘軟件使用指南1. Weka簡介該軟件是WEKA的全名是懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),它的源代碼可通過得到。Weka作為一個公開的數據挖掘工作平臺,集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的交互式界面上的可視化。如果想自己實現數據挖掘算法的話,可以看一看Weka的接口文檔。在Weka中集成自己的算法甚至借鑒它的方法自己實現可視化工具并不是件很困難的事情。2. Weka啟動打開Weka主界面后會出現一個對話框,如圖:主要使用右方的四個模塊,說
2、明如下: Explorer 使用 Weka 探索數據的環境,包括獲取關聯項,分類預測,聚簇等;(本文主要總結這個部分的使用) Experimenter 運行算法試驗、管理算法方案之間的統計檢驗的環境; KnowledgeFlow 這個環境本質上和 Explorer所支持的功能是一樣的,但是它有一個可以拖放的界面。它有一個優勢,就是支持增量學習; SimpleCLI 提供了一個簡單的命令行界面,從而可以在沒有自帶命令行的操作系統中直接執行 Weka命令;(某些情況下使用命令行功能更好一些)3主要操作說明 點擊進入Explorer模塊開始數據探索環境:3.1主界面進入Explorer模式后的主界面
3、如下:標簽欄主界面最左上角(標題欄下方)的是標簽欄,分為五個部分,功能依次是:1. Preprocess. 選擇和修改要處理的數據;2. Classify. 訓練和測試關于分類或回歸的學習方案;3. Cluster. 從數據中學習聚類;4. Associate. 從數據中學習關聯規則;5. Select attributes. 選擇數據中最相關的屬性;6. Visualize. 查看數據的交互式二維圖像。3.1.2載入、編輯數據標簽欄下方是載入數據欄,功能如下:1. Open file.打開一個對話框,允許你瀏覽本地文件系統上的數據文件(.dat);2. Open URL.請求一個存有數據的
4、URL 地址;3. Open DB.從數據庫中讀取數據 ;4. Generate. 從一些數據生成器中生成人造數據。其他界面說明接下來的主界面中依次是Filter(篩選器),Currtent relation(當前關系)、Attributes(屬性信息)、Selected attribute(選中的屬性信息)以及Class(類信息),分別介紹如下:Filter在預處理階段,可以定義篩選器來以各種方式對數據進行變換。Filter 一欄用于對各種篩選器進行必要設置。Filter 一欄的左邊是一個Choose 按鈕。點擊這個按鈕就可選擇 Weka 中的某個篩選器。用鼠標左鍵點擊這個choose左邊的
5、顯示框,將出現GenericObjectEditor對話框。用鼠標右鍵點擊將出現一個菜單,你可從中選擇,要么在 GenericObjectEditor 對話框中顯示相關屬性,要么將當前的設置字符復制到剪貼板。Currtent relation顯示當前打開的數據文件的基本信息:Relation(關系名),Instances(實例數)以及Attributes(屬性個數)。Attributes 顯示數據文件中的屬性信息,并且包含四個操作按鍵:1. All. 所有選擇框都被勾選;2. None. 所有選擇框被取消;3. Invert. 已勾選的選擇框都被取消,反之亦然;4. Pattern. 讓用戶基
6、于 Perl 5 正則表達式來選擇屬性。例如,用 *_id 選擇所有名稱以 _id 結束的屬性。底下顯示的就是數據文件包含的屬性,可以進行勾選等操作。特別地,當數據預處理是不要某個屬性時,將其各選,點擊列表正下方的Remove按鍵即可刪除這一屬性:Selected attribute顯示勾選的屬性的基本信息。Class顯示屬性中數據元組的直方圖。點擊Visualize all按鍵可以查看所有屬性中元組的直方圖。3.2實現基本數據挖掘功能:Associate(關聯規則)注意:目前,Weka的關聯規則分析功能僅能用來作示范,不適合用來挖掘大型數據集。各部分功能說明如下:Associator首先切換
7、到Associate選項卡。默認關聯規則分析是用Apriori算法,我們就用這個算法,點Choose右邊的文本框修改默認的參數,彈出的窗口中點More可以看到各參數的說明。一下簡列幾項:LowerBonundMinSupport:最小支持度下限;UpperBonundMinSupport:最小支持度上限;metricType:關聯、程度指標;numRules:在某種關聯規則下取出的滿足條件的規則數;注意:各種關聯規則算法都是尤其使用范圍的,并不是所有的屬性的數據類型都能被某一算法處理,典型的例如Apriori算法。因此可以在choose下拉菜單中選擇Filter選項,在其中勾選待處理數據的屬性
8、的類型以濾除無法使用的算法。要想知道每種算法都是用哪些數據類型,可以左擊choose旁邊的文本框,在彈出的菜單欄中單擊capabilities選項可以看到這種算法能夠處理的數據類型。Result list點擊Associator下方的start按鍵可以開始進行關聯項分析,結果列表即出現在Result list中,右擊出現更多選項可供選擇。Associator output這里顯示關聯分析結果,如圖為一個例子:一次顯示了100個符合條件的關聯規則,并且在其后顯示了關聯規則的四項指標以供參考。Classify(分類預測)該部分實現數據挖掘中的分類與預測功能,提供了各種主要的分類預測算法供使用者選擇
9、。下面是界面各部分的介紹:Classifier在choose一欄中選擇需要的分類算法,同樣地方法,每當選擇一個算法,這個算法便在choose左邊的文本框中進行顯示,單擊他會出現一個菜單,其中包含了一些參數的設定和more以及capabilities選項,欠著用來獲取那些需要設定參數的具體信息,后者用來獲取算法適合的屬性數據類型,這一點是相似的,因此在對數據進行處理是也應該注意數據的屬性類型,單擊choose在下拉菜單中選擇Filter按鍵可以進行數據類型的選擇從而過濾掉不能使用的算法。Test option提供四種測試模式:1. Using training set. 根據分類器在用來訓練的實
10、例上的預測效果來評價它。2. Supplied test set. 從文件載入的一組實例,根據分類器在這組實例上的預測效果來評價它。點擊 Set 按鈕將打開一個對話框來選擇用來測試的文件。3. Cross-validation. 使用交叉驗證來評價分類器,所用的折數填在Folds 文本框中。4. Percentage split. 從數據集中按一定百分比取出部分數據放在一邊作測試用,根據分類器這些實例上預測效果來評價它。取出的數據量由% 一欄中的值決定。當一切準備就緒時,點擊start按鍵開始分類過程,完成后Result list中會顯示結果列表,并且Classifier output中會顯示
11、出結果。右擊Result list中的結果,可以看見多個選項,選擇Visualize tree,新窗口里可以看到圖形模式的決策樹。建議把這個新窗口最大化,然后點右鍵,選“Fit to screen”,可以把這個樹看清楚些。先運行一個結果解釋其中一些內容,如圖所示:第一行的Correctly Classified Instances表示當前參與分類的實例中被正確分類的實例數目,第二行Incorrectly Classified Instances表示未被正確分類的實例數目。關于Confusion Matrix,解釋如下:原本“pep”是“YES”的實例,有74個被正確的預測為“YES”,有64個
12、錯誤的預測成了“NO”;原本“pep”是“NO”的實例,有30個被錯誤的預測為“YES”,有132個正確的預測成了“NO”。74+64+30+132 = 300是實例總數,而(74+132)/300 = 0.68667正好是正確分類的實例所占比例。這個矩陣對角線上的數字越大,說明預測得越好。更多選項及解釋內容參見:/classes/ect584/WEKA/classify.htmlCluster(聚簇分析)聚簇分析的原理就是將為標定類的數據根據其相似性分為幾個類,在同一類中的 數據元組具有較強的相似性,而在不同類中的數據元組則沒有相似性或者很弱。
13、現對其主要界面說明如下:Clusterer單擊choose,在這里可以選擇適當的聚簇算法,選擇后該算法會出現在choose左邊的文本框中,在單擊彈出的菜單可以對參數進行設定。同時在選擇more或者capabilities選項可以查看每種設定表示的具體信息和該算法的適用范圍(包括適用的數據類型信息等)。Cluster mode Cluster Mode 一欄用來決定依據什么來聚類以及如何評價聚類的結果。前三個選項和分類的情形是一樣的:Use training set、Supplied test set 和 Percentage split區別在于現在的數據是要聚集到某個類中,而不是預測為某個指定
14、的類別。第四個模式,Classes to clusters evaluation,是要比較所得到的聚類與在數據中預先給出的類別吻合得怎樣。和Classify 面板一樣,下方的下拉框是用來選擇作為類別的屬性的。在 Cluster mode 之外,有一個 Store clusters for visualization 的勾選框,該框決定了在訓練完算法后可否對數據進行可視化。設定按start開始進行,注意在其上方的可以允許我們忽略某些屬性。Result list與前面的情形一樣,該欄對結果進行順序顯示。右擊每一項彈出選擇菜單:如,Visualize cluster assignments 和Vis
15、ualize tree。后者在它不可用時會變灰。Clusterer output顯示聚簇分析的結果。具體解釋參見:/classes/ect584/WEKA/classify.htmlLinux下Weka環境配置:在Linux下和windows下使用Weka注:我的版本是Weka 3.6.linux環境下:一般下載了官方提供的tar.gz包之后解壓,如果機器上裝有java運行環境,可以直接運行weka.不過可能會在命令行出現加載數據庫驅動出錯,在classpath找不到驅動之類消息,似乎是can not find error not in CLAS
16、SPATH?如果你不需要從數據庫加載數據作為分析數據源,完全不用理會。要想使用數據庫連接功能,首先準備好對應數據庫的驅動,比如mysql jdbc Driver等,簡便的方法是將jar文件copy到/usr/lib/jvm/“java-1.6.0-openjdk”/jre/lib/ext“java-1.6.0-openjdk“不是唯一的,具體視機器上裝的java運行時而定。還有修改CLASSPATH的方法,沒嘗試過。這一步弄完之后應該不會出現命令行提示找不到驅動的錯誤。其次是修改weka數據類型和數據庫數據類型的映射。(這下面的內容來自Weka官方wiki 在weka.jar里面有一個文件/w
17、eka/experiment/DatabaseUps,記錄了數據庫操作的相關參數。還有很多文件,等,分別對應了各個數據庫的操作參數,如果你使用msaccess,可以把的內容覆蓋DatabaseUps.如果不對DatabaseUps修改,可能在連接數據庫時一切順利,但在將數據裝入準備預處理時卻出現找不到數據類型(can not read from database,unknown data type)之類錯誤。沒關系,在DatabaseUps加入類型映射就OK了。文件中一般有下面的內容(這里是我用mysql對應的文件覆蓋了):# J
18、DBC driver (comma-separated list)jdbcDriver=# database URLjdbcURL=jdbc:mysql:/server_name:3306/database_name# specific data typesstring, getString() = 0; - nominalboolean, getBoolean() = 1; - nominaldouble, getDouble() = 2; - numericbyte, getByte() = 3; - numericshort, getByte()= 4; - numericint, getInteger() = 5; - numericlong, getLong() = 6; - numericfloat, getFloat() = 7; - numericdate, getDate() = 8; - datetext, getString() = 9
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 現場柴油發電機臨時供電方案設計與實施細節
- 機電養護監理管理辦法
- 生態文明建設教育課程體系構建與教學設計研究
- 數字仿真:產品創新加速器技術探索
- 煤系巷道頂板疊加理論與有效錨固層厚度應用研究
- 醫療集團資產管理辦法
- 熱紅外遙感勘探-洞察及研究
- 音樂傳播視角下高職學生合唱藝術審美能力培養策略研究
- 全員安全生產責任制清單模板
- 關于安全生產會議的法律規定
- 開展退伍老兵活動方案
- 2025年中國物流集團招聘筆試備考題庫(帶答案詳解)
- 年產 35 萬噸金屬結構件項目(一期年產 6 萬噸金屬結構件)環評報告書
- 【基于中國醫療行業上市公司數據的CAPM模型實證檢驗分析7800字】
- 地產 設計培訓課件
- 中國古建筑行業市場發展現狀及投資前景展望報告
- 浙江杭州市2024-2025學年高一下學期6月期末考試物理試題及答案
- 員工勸退方案文案(3篇)
- 2025年高考全國一卷數學真題-答案
- 企業異地作業管理制度
- 陜西省專業技術人員繼續教育2025公需課《專業技術人員綜合素質拓展》4學時題庫及答案
評論
0/150
提交評論