《數據挖掘導論》教材配套教學PPT——第1章認識數據挖掘_第1頁
《數據挖掘導論》教材配套教學PPT——第1章認識數據挖掘_第2頁
《數據挖掘導論》教材配套教學PPT——第1章認識數據挖掘_第3頁
《數據挖掘導論》教材配套教學PPT——第1章認識數據挖掘_第4頁
《數據挖掘導論》教材配套教學PPT——第1章認識數據挖掘_第5頁
已閱讀5頁,還剩60頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第1章 認識數據挖掘數據挖掘定義機器學習數據查詢專家系統數據挖掘過程/作用/技術/應用Weka數據挖掘軟件清華大學出版社本章目標掌握數據挖掘的定義了解機器學習中的基本方法概念學習歸納學習有指導的學習無指導的聚類了解與數據挖掘有關的數據查詢、專家系統了解數據挖掘的過程、作用、技術、應用掌握Weka數據挖掘軟件的使用方法2022年3月24日星期四第2頁,共65頁1.1 數據挖掘定義清華大學出版社數據挖掘(Data Mining) 技術角度 利用一種或多種計算機學習技術,從數據中自動分析并提取信息的處理過程。 目的是尋找和發現數據中潛在的有價值的信息、知識、規律、聯系和模式。 數據挖掘與計算機科學有

2、關,一般使用機器學習、統計學、聯機分析處理、專家系統和模式識別等多種方法來實現。 學科角度 數據挖掘是一門交叉學科,涉及數據庫技術、人工智能技術、統計學、可視化技術、并行計算等多種技術。2022年3月24日星期四第4頁,共65頁清華大學出版社 商業角度 商業智能信息處理技術; 圍繞商業目標開展的,對大量商業數據進行抽取、轉換、分析和處理,從中提取輔助商業決策的關鍵性數據,揭示隱藏的、未知的或驗證已知的規律性,是一種深層次的商業數據分析方法。 2022年3月24日星期四第5頁,共65頁數據挖掘(Data Mining)1.2 機器學習清華大學出版社1.2.1 概念學習 通過對大量實例進行訓練,從

3、中發現經驗化規律的過程。 機器學習結果的通常表現形式為概念。 機器最擅長的是學習概念。 概念(Concept) 具有某些共同特征的對象、符號或事件的集合。 概念可以從三個不同的角度來看待2022年3月24日星期四第7頁,共65頁清華大學出版社1.2.1 概念學習1、傳統角度(Classical View) 所有概念都有明確的定義。2、概率角度(Probabilistic View) 對個別樣本實例進行概括性描述,概括性說明構成了概率角度中的概念。3、樣本角度(Exemplar View) 樣本角度中的概念是將某個概念中的典型實例組成一個集合,使用該集合來描述概念定義。2022年3月24日星期四

4、第8頁,共65頁清華大學出版社1.2.2 歸納學習(Induction-Based Learning) 基于歸納的學習 機器學習方式 人類學習最重要方式之一 人類通過對事物的特定實例的觀察,對所掌握的已有經驗材料研究。 歸納學習 從歸納中獲取和探索新知識,并以概念的形式表現出來的學習。2022年3月24日星期四第9頁,共65頁清華大學出版社1.2.3 有指導的學習(Supervised Learning) 定義 通過對大量已知分類或輸出結果值的實例進行訓練,調整分類模型的結構,達到建立能夠準確分類或預測未知模型的目的。這種基于歸納的概念學習過程被稱為有指導(監督)的學習。 數據實例(Insta

5、nce) 用于有指導學習的樣本數據 訓練實例(Training Instance) 用于訓練的實例 檢驗實例(Test Instance) 分類模型建立完成后,經過檢驗實例進行檢驗,判斷模型是否能夠很好地應用在未知實例的分類或預測中。2022年3月24日星期四第10頁,共65頁【例1.1】給定如表1.1所示的數據集T,使用有指導的學習方法建立分類模型,對未知類別的實例進行分類。清華大學出版社表1.1 感冒診斷假想數據集序號Increased-lym淋巴細胞升高Leukocytosis白細胞升高Fever發燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效

6、果Group群體發病Cold-type感冒類型1YesNoYesYesNoGoodYesViral2NoYesYesNoYesNot goodYesBacterial3YesNoYesYesYesGoodYesViral4YesNoNoYesNoUnknownNoViral5NoNoNoNoYesUnknownNoBacterial6NoYesYesYesYesNot goodNoBacterial7NoYesYesNoYesNot goodNoViral8YesNoYesNoNoGoodYesViral9YesYesYesYesYesGoodYesViral10YesYesYesNoYesN

7、ot goodNoBacterial2022年3月24日星期四第12頁,共65頁表1.1 感冒診斷假想數據集清華大學出版社決策樹(Decision Tree) 倒立樹,非葉子節點表示在一個屬性上的分類檢查,葉子節點表示決策判斷的結果,該結果選擇了正確分類較多實例的分類。 決策樹有很多算法(第2章)2022年3月24日星期四第13頁,共65頁圖1.1 感冒類型診斷C4.5決策樹清華大學出版社分類未知實例 分類模型建立和檢驗完成后,就可以實際投入使用,即用該模型對未知分類的實例進行分類。2022年3月24日星期四第14頁,共65頁表1.2 未知分類的數據實例序號Increased-lym淋巴細胞升

8、高Leukocytosis白細胞升高Fever發燒Acute-onset起病急Sore-throat咽痛Cooling-effect退熱效果Group群體發病Cold-type感冒類型NoYesYesNoNoNot goodNo?YesNoYesNoYesGoodNo?清華大學出版社產生式規則 決策樹一般都可以被翻譯為一個產生式規則集合。 產生式規則的格式為: IF 前提條件 THEN 結論 圖1.1翻譯為4條產生式規則(1)IF Sore-throat = No THEN Cold-type = Viral(2)IF Sore-throat = Yes & Cooling-effec

9、t = Good THEN Cold-type = Viral (3)IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial(4)IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial2022年3月24日星期四第15頁,共65頁清華大學出版社1.2.4 無指導的聚類(Unsupervised Clustering) 無指導(監督)聚類 一種無指導(無教師)的學習; 在學習訓練之前,無預先定義

10、好分類的實例,數據實例按照某種相似性度量方法,計算實例之間的相似程度,將最為相似的實例聚類在一個組簇(Cluster)中,再解釋和理解每個簇的含義,從中發現聚類的意義。2022年3月24日星期四第16頁,共65頁【例1.2】給定如表1.1所示的數據集T,使用無指導聚類方法,對所有實例進行分類,解釋每個簇的含義。清華大學出版社挖掘準備 刪除Cold-type(感冒類型)屬性 選擇算法 無指導聚類有很多種算法, K-means(K-均值)算法、凝聚聚類方法、概念分層Cobweb算法、EM算法等。 K-means算法是一種最為常用和易用的算法。 指定初始簇 K-means(K-均值)算法在聚類前指定

11、一個初始的簇的個數,本例指定為2。2022年3月24日星期四第18頁,共65頁清華大學出版社聚類結果 聚類為兩個簇,每個簇有5個實例,分別為 Cluster0 = 1,3,4,8,9 Cluster1 = 2,5,6,7,10 每個簇的概念結構可以表示為一個產生式規則(1)IFIncreased -lym = Yes & Cooling-effect =Good THEN Cluster = 0(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)(2)IFSore-throat = Yes & Cooling-effect

12、 = Not good THEN Cluster = 1(rule accuracy = 4/4 = 100%,rule coverage = 4/5 = 80%)2022年3月24日星期四第19頁,共65頁1.3 數據查詢清華大學出版社數據查詢(Data Query) 通過數據查詢語言在數據中找出所需要的數據或信息。 什么時候使用數據挖掘,什么時候使用數據查詢呢? 獲取淺知識或多維知識(Multidimensional Knowledge) 獲取數據中潛在的、隱藏的信息或知識隱含知識(Hidden Knowledge)2022年3月24日星期四第21頁,共65頁1.4 專家系統清華大學出版社

13、專家系統(Expert System)一種具有“智能”的計算機軟件系統。能夠模擬某個領域的人類專家的決策過程,解決那些需要人類專家處理的復雜問題。一般包含以規則形式表示的領域專家的知識和經驗,系統就是利用這些知識和方法進行推理和判斷,從而解決該領域中實際問題。專家(Expert) 有能力解決領域中復雜問題的人通常被稱為該領域中的專家(Expert)2022年3月24日星期四第23頁,共65頁清華大學出版社專家系統方法 與 數據挖掘方法2022年3月24日星期四第24頁,共65頁圖1.2專家系統方法vs 數據挖掘方法1.5 數據挖掘的過程清華大學出版社KDD過程 數據挖掘是KDD過程中的一個階段

14、(第3章) 一次數據挖掘實驗分為4個步驟(1)準備數據,包括準備訓練數據和檢驗數據(2)選擇一種數據挖掘技術或算法,將數據提交給數據挖掘軟件(3)解釋和評估結果(4)模型應用2022年3月24日星期四第26頁,共65頁圖1.3 數據挖掘實驗過程示意圖清華大學出版社1.5.1 準備數據是整個數據挖掘過程中較為重要和費時費力的階段。在明確數據挖掘目標后,可以通過從傳統數據庫、數據倉庫和平面文件三種途徑收集和抽取數據。1、傳統數據庫 操作型數據庫(Operational Database),它是面向日常事務處理的數據庫,通常結構為關系模型。數據庫中包含若干個規范化了的二維關系表。2、數據倉庫 數據倉

15、庫(Data Warehouse)是面向決策支持而不是日常事務處理而設計的。3、平面文件 一些數據量較小的數據集可以存儲在如Excel電子表格、.csv、.arff等平面文件中。2022年3月24日星期四第27頁,共65頁清華大學出版社1.5.2 挖掘數據 選擇一種數據挖掘技術或算法,將數據提交給數據挖掘工具,應用該算法建立模型。 選擇數據挖掘技術或算法需要考慮(1)判斷學習是有指導的還是無指導的。(2)數據集中的哪些實例和屬性提交給數據挖掘工具;哪些數據實例作為訓練數據;哪些數據實例作為檢驗數據。(3)如何設置數據挖掘算法的參數。2022年3月24日星期四第28頁,共65頁清華大學出版社1.

16、5.3 解釋和評估結果 對數據挖掘的輸出進行檢查,評估其是否達到挖掘目標,確定所發現的信息或知識是有價值的。 數據挖掘的評估工具有多種(第5章) 如果結果不理想,可以(1)(2)進行重復實驗,直到得到滿意結果為止。(1)使用或選擇新的數據實例或屬性(2)選擇新的數據挖掘算法或參數 一個數據挖掘過程是個迭代的過程。2022年3月24日星期四第29頁,共65頁清華大學出版社1.5.4 模型應用 數據挖掘的終極目標。可以應用分類模型解決如例1.1中的疾病診斷問題;可以應用聚類模型解決對顧客的分類,找出不同類中顧客的行為特征,從而為諸如促銷活動等提供決策支持;可以通過應用關聯分析模型,找出顧客購買的商

17、品之間的關聯關系,對于貨架擺放、商品促銷等提供決策支持。2022年3月24日星期四第30頁,共65頁1.6 數據挖掘的作用清華大學出版社數據挖掘的作用 兩大類 建立有指導的學習模型和無指導聚類模型。 因變量(Dependent Variables) 有指導的學習模型中的輸出屬性的值依賴于輸入屬性的取值,所以輸出屬性又被稱為因變量 自變量(Independent Variables) 相對的,輸入屬性被稱為自變量2022年3月24日星期四第32頁,共65頁清華大學出版社數據挖掘的作用2022年3月24日星期四第33頁,共65頁圖1.4數據挖掘的作用1.7 數據挖掘技術清華大學出版社數據挖掘技術(

18、Data Mining Technique) 對一組數據應用一種數據挖掘方法。 一般由一個數據挖掘算法和一個相關的知識結構,如樹結構或規則來定義的。2022年3月24日星期四第35頁,共65頁清華大學出版社1.7.1 神經網絡(Neural Network) 一種具有統計特性的數學模型。 創建思想源于人類神經網絡的結構、功能和運行過程。 試圖模擬人腦功能來完成學習。 已經成功地應用于多個領域的問題中,是非常流行的數據挖掘技術。 可以建立有指導學習模型和無指導聚類模型。 輸入屬性必須是數值的,輸出屬性可以是數值的也可以是分類的。2022年3月24日星期四第36頁,共65頁清華大學出版社前饋(Fe

19、ed-Forward)神經網 常用的有指導的學習模型。 全連接 每一層的每個節點都與其下一層的所有節點相連接,而同層節點之間不相連。 每個網絡連接上都具有權重值,如w1j、w2j、w3j。2022年3月24日星期四第37頁,共65頁12kjo3輸入層輸入層輸出層輸出層隱層隱層WjoWkoW3kW3jW2kW2jW1kW1j iW1iW2iW3iWio 圖6.21.png圖1.5三層全連接前饋神經網清華大學出版社建立神經網絡模型的兩個階段 第一個階段學習訓練階段 將每個實例的輸入屬性值提交給輸入層節點。神經網絡使用輸入值和網絡連接權重值來計算每個實例的輸出。將每個實例的輸出和希望的網絡輸出進行比

20、較,希望值和計算輸出值之間的誤差通過修改連接權值傳回網絡。當達到一定的迭代次數后或當網絡收斂到一個預定的最低錯誤率時,訓練終止。 第二個階段檢驗階段 固定網絡權重,將模型用于計算新實例的輸出值。2022年3月24日星期四第38頁,共65頁清華大學出版社1.7.2 回歸分析(Regression Analysis) 一種統計分析方法。 可以用來確定兩個或兩個以上變量之間的定量的依賴關系,并建立一個數學方程作為數學模型,來概化一組數值數據,進而進行數值數據的估值和預測。 應用非常廣泛。2022年3月24日星期四第39頁,共65頁清華大學出版社辦公樓數據集序號Space(x1)Offices(x2)

21、Entrances(x3)Age(x4)Value1231022201420002233322121440003235631.5331510004237932431500005240223531390006242542231690007244821.599126000824712234142900924943323163000102517445516900011254023221490002022年3月24日星期四第40頁,共65頁表1.3 辦公樓數據集清華大學出版社回歸模型2022年3月24日星期四第41頁,共65頁83.52317)24.234(21.255377.1252964.2743

22、21xxxxValuey = 27.642500 + 12 529.773 + 2553.212234.2425 + 52 317.83 = 158 257.56 使用回歸方程預估辦公樓的價值。設有一座未知價值的辦公樓,面積為 2500、3個辦公室、2 個入口,已使用 25 年,則其估計價值計算所得,為158 257.56。清華大學出版社1.7.3 關聯分析 一種關聯規則(Association Rule)挖掘技術,用于發現數據中屬性之間的有價值的聯系。 關聯規則可以有多個輸出屬性,一個規則的輸出屬性可以在另一規則中作為輸入屬性。 關聯分析用來發現潛在的令人感興趣的商品購買組合,是購物籃分析的

23、常用技術。 關聯分析有多種算法,其中最著名的為Agrawal等人于1993年提出的Apriori關聯分析算法。 Apriori算法不支持數值型數據,在使用該算法之前,需要進行必要的數據變換。2022年3月24日星期四第42頁,共65頁【例1.3】應用Apriori算法,對表1.1中的數據集進行關聯分析,找出感冒癥狀之間的關聯關系。清華大學出版社關聯規則 生成三條關聯規則(1)IF Leukocytosis = Yes THEN Fever = Yes(rule accuracy = 5/5 = 100%,rule coverage = 5/8 = 62.5%)(2)IF Increased-l

24、ym = No THEN Sore-throat=Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/7 = 57.1%)(3) IF Cooling-effect = Good THEN Fever = Yes(rule accuracy = 4/4 = 100%,rule coverage = 4/8 = 50%)2022年3月24日星期四第44頁,共65頁清華大學出版社1.7.4 聚類技術 基于劃分的聚類方法(K-means算法) 基于分層的聚類方法 基于模型的聚類方法 。2022年3月24日星期四第45頁,共65頁1.8 數據挖掘的應用清華

25、大學出版社1.8.1應用領域2022年3月24日星期四第47頁,共65頁圖網站公布的2012年數據挖掘的應用領域清華大學出版社1.8.2 成功案例除了最著名的沃爾瑪的尿布和啤酒之外,還有(1)Empire Blue Cross公司利用DWT,甄別出虛假開立醫療憑據的醫生,節省濫賠支出。(2)金融犯罪強制網絡AI系統(FAIS)使用DWT ,識別大型現金交易中可能存在的洗錢行為。(3)加拿大西門菲沙大學(Simon Fraser)的KDD研究組根據其擁有的十幾年的客戶數據,進行數據挖掘分析,提出了新的電話收費和管理辦法,制定出公司和客戶都受益的優惠政策。(4)美國梅?。∕ellon)銀行使用In

26、telligent Agent數據挖掘工具提高銷售和定價金融產品的準確率。(5)美國西部通信(US West Communications)根據家庭大小、家庭成員平均年齡和所在地特征,使用數據挖掘和數據倉庫來確定客戶的傾向和需要,從而幫助簽約新客戶和增加與新客戶的交易額。(6)使用貝葉斯分類數據挖掘技術,薩莎(Sacha)等人成功地通過心肌SPECT圖像對心肌灌注進行分類,診斷患者是否患有冠心病。(7)20世紀Fox公司利用數據挖掘技術分析票房收入來確定在各個市場環境中更容易被接受的演員和故事情節。(8)科學界普遍認為存在兩種射線爆。慕克吉(Mukherjee)等人使用統計聚類分析法發現了第三

27、類射線爆。(9)NBA球隊使用IBM公司開發的數據挖掘應用軟件Advanced Scout系統來優化他們的戰術組合。(10)全球十大視頻網站 之一Netflix公司應用大數據的挖掘技術,成功營銷熱播劇紙牌屋。2022年3月24日星期四第48頁,共65頁1.9 Weka數據挖掘軟件清華大學出版社1.9.1 Weka簡介Weka(Waikato Environment for Knowledge Analysis,懷卡托智能分析環境)誕生于 University of Waikato(新西蘭懷卡托大學)。基于Java 的免費開源軟件。集成了有關數據挖掘的機器學習算法和統計技術,具有數據預處理、分類

28、、聚類、關聯分析、屬性選擇和交互式可視化等功能。操作簡單、易學易用,作為入門軟件完成簡單挖掘工作。若未安裝 JRE,需下載包含 JRE 的 Weka 版本(Weka 3.6.10)2022年3月24日星期四第50頁,共65頁1. Weka的特點清華大學出版社Weka軟件特點(1)跨平臺;(2)支持結構化文本文件、數據挖掘格式文件和數據庫接口;(3)可處理連續型數值數據和離散型(字符型和日期型)數據;(4)具有缺失數據處理、噪聲處理、標準化、數據離散化、屬性構造、轉換變量、拆分數據、數據平滑等數據預處理功能;(5)具有分類、聚類、關聯和可視化等數據挖掘功能;(6)提供算法組合、用戶自定義算法嵌入、算法參數設置功能;(7)能夠生成基本報告、測試報告、輸出格式,實現模型解釋、模型比較、數據評分功能;(8)具有數據、挖掘過程及挖掘結果可視化功能。2022年3月24日星期四第52頁,共65頁2. Weka的文件格式清華大學出版社ARFF文件Weka默認使用ARFF(Attribute-Relation File Format)。一種ASCII文本文件格式,由兩部分組成 第一部分為頭信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論