《數據挖掘機器學習和Weka》_第1頁
《數據挖掘機器學習和Weka》_第2頁
《數據挖掘機器學習和Weka》_第3頁
《數據挖掘機器學習和Weka》_第4頁
《數據挖掘機器學習和Weka》_第5頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘實用機器學習技術及Java實現n原書 英文版Data MiningPractical Machine Learning Tools and Techniques with Java Implementations,新西蘭 Ian H. Witten、Eibe Frank著nWeka An open source framework for text analysis implemented in Java that is being developed at the University of Waikato in New Zealand. http:/www.cs.waikato.a

2、c.nz/ml/weka/ http:/ 概念:KDD、ML、OLAP與DMnKDD(Knowledge Discovery in Database)是一種知識發現的一連串過程。nML(Machine Learning)KD,不限于Database的數據過程:挖掘數據模式表示驗證預測nOLAP(Online Analytical Process)是數據庫在線分析過程。n數據挖掘(data Mining)只是KDD/ML的一個重要組成部分。nDM用在產生假設 ,而OLAP則用于查證假設概念:DM與DBnData Preparation要占Data mining過程70工作量nData base

3、Data mining會說話的數據庫概念:Data Miningn概念:數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程Key Characteristics of Data Mining: Large amount of data Discovering previously unknown, hidden information Extracting valuable information Making important business decision using the informationnDM/ML的一些要點 The data is stored e

4、lectronically and the search is automated by computer; About solving problems by analyzing data already present in databases; Defined as the process of discovering patterns in data; This book is aboutTechniques for finding and describing structural patterns in data. structural patterns表示法:表、樹、規則概念:M

5、achine LearningnTo learn: to get knowledge of study, experience, or being taught; to become aware by information or from observation; to commit to memory; to be informed of, ascertain(確定); to receive instructionnShortcomings when it comes to talking about computes Its virtually impossible to test if

6、 learning as bean achieved or not. This ties learning to performance rather than knowledge簡單例子:天氣問題*n天氣數據:weather.nominal.arffn運行Weka,載入數據,選擇算法id3n預測(決策樹) outlook = rainy | windy = TRUE: no | windy = FALSE: yesn測試方法:采用10 Cross-validation的n測試結果:Confusion Matrix(P.138)和準確率 a b no Ordinal:距離無法度量,如hot m

7、ild cool Interval:距離可度量,如整數 Ratio:如58.1%輸入:Preparing the input*nGathering the data together The data must be assembled, integrated, and cleaned up(Data Warehousing) Selecting the right type and level of aggregation is usually critical for successn屬性類型: ARFF文件格式(備注:weather.nominal.arff) 支持兩種基本類型:nomi

8、nal and numeric,盡可能用前者 n屬性值 Missing value:去掉該樣本、替代、(用?來表示字段值) Inaccurate value:一粒老鼠屎需要領域知識!nGetting to know your data! 數據清理一個耗時、費力,卻很重要的過程, Garbage in, garbage out!輸出:Knowledge representationnDecision tablesnDecision treesnClassification rules If a and b then xnAssociation rules:多個結果 If then outlook

9、=sunny and humidity=highnRules with exceptions (P.66) If then exceptelse exceptnTrees for numeric predictionnInstance-based representationnClusters算法:The basic methodsnSimplicity-first:simple ideas often work very well Very simple classification rules perform well on most commonly used datasets (Hol

10、te 1993)nInferring rudimentary rules (算法:1R、1-Rule)nStatistical modeling(算法:Nave Bayes) 使用所有屬性,假設屬性無關、且同等重要nDivide and conquer: Constructing decision trees 循環選擇一個屬性來分割樣本 (算法:ID3、C4.5)nCovering algorithms:Constructing rules(算法:Prism) Take each class in turn and seek a way of covering all instances in

11、 it, at the same time excluding instances not in the class. Covering approach導出一個規則集而不是決策樹算法:The basic methodsnMining association rules:參數:coverage(support),accuracy(confidence)nLinear models(參考cpu.arff例子) 主要用于值預估和分類(Linear regression)nInstance-based learning 算法:Nearest-neighbor, K-Nearest-neighbor評

12、估可信度*n三個數據集: Training data:用于導出模型,越大則模型越好 Validation data:用于優化模型參數 Test data:用于計算最終模型的錯誤率,越大越準確n原則:測試數據無論如何也不能用于模型的訓練n問題:如果樣本很少,如何劃分?n方法: N-fold Cross-validation,(n=3,10) Leave-one-out Cross-validation Bootstrap (e=0.632): best for very small datasetsnCounting the cost: Lift charts (Respondents /Sam

13、ple Size) 、ROC curves (P.141)nThe MDL principle (Minimum Description Length) Occams Razor:Other things being equal, simple theories are preferable to complex ones. 愛因斯坦:Everything should be made as simple as possible, but no simpler.實現:Real machine learning schemes (略)n參考閱讀: Ch6.1 Decision tree Ch6.

14、2 Classification rules Ch6.3 Extending linear classification: Support vector machines Ch6.4 Instance-based learning Ch6.5 Numeric prediction Ch6.6 Clustering改進:Engineering the input and outputn數據工程 Attribute selection Discretizing(離散化) numeric attributes Automatic data cleaningnCombining multiple mo

15、dels Bagging Boosting Stacking Error-correcting output codes未來:Looking forwardn大數據集n可視化:輸入、輸出nIncorporating domain knowledge Metadata often involves relations among attributesn文本挖掘n挖掘Web回顧:目錄nDM綜合的技術領域nDM的功能分類nDM的具體應用nDM的步驟nDM的理論技術和算法nDM的常用分析工具回顧:DM綜合的技術領域Database systems, Data Warehouses, OLAP Mach

16、ine learningStatistical and data analysis methodsVisualizationMathematical programmingHigh performance computing回顧:DM的功能分類n分類方法一分類(classification)估計(estimation)預測(prediction)關聯分組(affinity grouping)聚類(clustering)n分類方法二ClassificationRegressionTime-Series Forecasting ClusteringAssociationSequence Disco

17、very回顧:DM的具體應用n市場-購物藍分析n客戶關系管理n尋找潛在客戶n提高客戶終生價值n保持客戶忠誠度n行銷活動規劃n預測金融市場方向 保險欺詐偵察 客戶信用風險評級 電話盜打 NBA球員強弱分析 信用卡可能呆帳預警 星際星體分類回顧:DM的步驟*n一種步驟劃分方式 理解資料與進行的工作 獲取相關知識與技術(Acquisition) 整合與查核資料(Integration and checking) 去除錯誤、不一致的資料(Data cleaning) 模式與假設的演化(Model and hypothesis development) 實際數據挖掘工作 測試與核查所分析的資料(Test

18、ing and verification) 解釋與運用(Interpretation and use)n另一種步驟劃分方式(見本頁的備注!)n不管那種方式,前期數據處理占很大比率回顧:DM的理論技術和算法n統計分析方法(Statistical Methods)n決策樹(Decision Tree)n人工神經網絡(Neural Network)n規則歸納法(Rules Induction)n遺傳算法(Genetic algorithms)n常用的分析DM工具回顧:DM的常用分析工具nCase-based Reasoning nData Visualization nFuzzy Query and

19、 Analysis nKnowledge Discovery nNeural Networks 典型案例:英國Safewayn公司簡介 英國Safeway的年銷售量超過一百億美金,員工接近七萬名,是英國第三大的連鎖超級市場,提供的服務種類則達三十四種。 n問題 在英國市場運用傳統的技術,如更低的價位、更多的店面、以及更多種類的產品,競爭已經越來越困難了 n問題確認: 必須以客戶客戶為導向,而非以產品與店家為導向。 必須了解六百萬客戶所做的每一筆交易,以及這些交易彼此之間的關連性。 英國Safeway想要知道哪些種類的客戶買了哪些種類的產品以及購買的頻率,以建立個人導向的市場 典型案例:英國Safewayn數據來源 公司開始發信用卡給客戶,客戶用這種信用卡結帳可以享受各種優惠,這種信用卡就成為該公司在500家店面搜集六百萬客戶資料的網 n使用工具: 使用IBM Intelligent Miner 從數據庫中取得商業知識 。 根據客戶的相關資料,將客戶分為150類。然后再用Association的技術來比較這些資料集合 ,然后將列出產品吸引力的清單 。 典型案例:英國Safew

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論