




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2022-3-8史忠植 高級人工智能1高級人工智能高級人工智能第十三章第十三章 知識發現知識發現(二)(二) 史忠植史忠植 中國科學院計算技術所2022-3-8史忠植 高級人工智能2主要內容主要內容n研究背景nMSMiner體系結構n元數據n數據倉庫平臺n數據采掘集成工具2022-3-8史忠植 高級人工智能3典型的知識發現系統典型的知識發現系統 SAS公司的SAS Enterprise Miner IBM公司的Intelligent Miner Solution公司的Clementine 加拿大Simon Fraser Univ.的DBMiner 中科院計算技術研究所的MSMiner 等202
2、2-3-8史忠植 高級人工智能4 知識發現工具知識發現工具SASSAS SAS公司的SAS Enterprise Miner是一種通用的數據挖掘工具。通過收集分析各種統計資料和客戶購買模式,SAS Enterprise Miner可以幫助您發現業務的趨勢,解釋已知的事實,預測未來的結果,并識別出完成任務所需的關鍵因素,以實現增加收入、降低成本。2022-3-8史忠植 高級人工智能5 知識發現工具知識發現工具SASSAS SAS Enterprise Miner提供抽樣-探索-轉換-建模-評估(SEMMA)的處理流程。數據挖掘算法有: 聚類分析,SOM/KOHONEN神經網絡分類算法 關聯模式/
3、序列模式分析 多元回歸模型 決策樹模型(C45, CHAID, CART) 神經網絡模型(MLP, RBF) SAS/STAT,SAS/ETS等模塊提供的統計分析模型和時間序列分析模型也可嵌入其中。2022-3-8史忠植 高級人工智能6 知識發現工具知識發現工具Intelligent MinerIntelligent Miner IBM公司的Intelligent Miner具有典型數據集自動生成、關聯發現、序列規律發現、概念性分類和可視化顯示等功能。它可以自動實現數據選擇、數據轉換、數據發掘和結果顯示。若有必要,對結果數據集還可以重復這一過程,直至得到滿意結果為止。2022-3-8史忠植 高
4、級人工智能7 知識發現工具知識發現工具Clementine Solution公司的Clementine 提供了一個可視化的快速建立模型的環境。它由數據獲取(Data Access)、探查(Investigate)、整理(Manipulation)、建模(Modeling)和報告(Reporting)等部分組成。都使用一些有效、易用的按鈕表示,用戶只需用鼠標將這些組件連接起來建立一個數據流,可視化的界面使得數據挖掘更加直觀交互,從而可以將用戶的商業知識在每一步中更好的利用。2022-3-8史忠植 高級人工智能8數據挖掘工具數據挖掘工具: : 公用系統公用系統nMLC+nMatlabnWeka20
5、22-3-8史忠植 高級人工智能9 知識發現工具知識發現工具MSMiner 中科院計算技術研究所智能信息處理開放實驗室開發的MSMiner是一種多策略知識發現平臺,能夠提供快捷有效的數據挖掘解決方案,提供多種知識發現方法。 MSMiner具有下列特點: .基于數據倉庫和新型的元數據管理按照主題創建數據倉庫,并通過元數據進行管理和維護。 .數據的抽取、轉換、裝載等預處理方便,支持OLAP查詢。 2022-3-8史忠植 高級人工智能10MSMinerMSMiner的特點的特點n提供決策樹、支持向量機、粗糙集、模糊聚類、基于范例推理、統計方法、神經計算等多種數據挖掘算法,支持特征抽取、分類、聚類、預
6、測、關聯規則發現、統計分析等數據挖掘功能,并支持高層次的決策分析功能。n實現了可視化的任務編輯環境,以及功能強大的任務處理引擎,能夠快捷有效地實現各種數據轉換和數據挖掘任務。 n可擴展性好。轉換規則和挖掘算法是封裝的、模塊化的,系統提供了一個開放的、靈活通用的接口,使用戶能夠加入新的規則和算法。 n容易進行二次開發。 2022-3-8史忠植 高級人工智能11數據倉庫數據倉庫: : 特征特征n面向主題n集成性n穩定性n隨時間變化2022-3-8史忠植 高級人工智能12數據倉庫數據倉庫: : OLAPOLAPnROLAP: Relational OLAPnMOLAP: Multidimension
7、al OLAPnHOLAP: Hybrid OLAP2022-3-8史忠植 高級人工智能13數據挖掘和數據倉庫的結合數據挖掘和數據倉庫的結合n數據倉庫為數據挖掘提供經良好處理的數據源n數據挖掘為數據倉庫提供深層數據分析手段2022-3-8史忠植 高級人工智能14MSMiner體系結構體系結構設計目標:提供快捷有效的數據挖掘解決方案。設計要求:n開放性n可擴展性n效率n易用性2022-3-8史忠植 高級人工智能15MSMiner體系結構體系結構MSMiner體系結構示意圖客戶端服務器端元數據模塊執行數據采掘任務編輯數據采掘任務數據采掘集成工具數據抽取和集成主題組織OLAP可視化數據倉庫管理器數據
8、倉庫OLE DB for ODBC2022-3-8史忠植 高級人工智能16元數據的內容元數據的內容關于外部數據源的關于內部數據的(包括數據庫、表、字段的信息)關于數據倉庫的(包括事實表、維表、立方以及其它的中間表)關于用戶信息的數據采掘算法(包括算法的參數信息)關于采掘任務的(包括采掘步驟、每個步驟的所用的參數)2022-3-8史忠植 高級人工智能17元數據:元數據庫元數據:元數據庫2022-3-8史忠植 高級人工智能18元數據:元數據對象模型元數據:元數據對象模型設計思路n一致性n完備性n易維護性2022-3-8史忠植 高級人工智能19元數據是層次的嵌套的封裝的互相聯系的采用面向對象的方法共
9、有60多個類元數據的結構元數據的結構2022-3-8史忠植 高級人工智能20數據倉庫平臺:結構數據倉庫平臺:結構MSMiner數據倉庫結構示意圖外部數據數據倉庫元 數 據數據抽取、清洗、聚集、轉換主題2主題1主題nOLAP及可視化工具數據采掘集成工具.2022-3-8史忠植 高級人工智能21數據倉庫平臺:數據抽取和集成數據倉庫平臺:數據抽取和集成n數據的簡單抽取和集成n數據的復雜處理n面向數據挖掘的數據預處理2022-3-8史忠植 高級人工智能22數據抽取和集成數據抽取和集成: : MSETLMSETL nMSETL系統作為MSMiner數據挖掘平臺的一個重要組成部分,主要完成從業務數據源到分
10、析數據源的轉換功能。具體包括從異質業務數據源中抽取需要的數據,對這些數據進行多種預處理,把經過處理后的數據裝載入指定數據倉庫/數據庫2022-3-8史忠植 高級人工智能23數據抽取和集成數據抽取和集成: MSETL 用戶界面(ETL轉換函數和ETL任務)邏輯處理元數據管理數據庫服務器2022-3-8史忠植 高級人工智能24數據抽取和集成數據抽取和集成: : MSETLMSETLn支持多種數據源和目的數據庫n良好的可擴充性n高效率的調度執行功能n增量更新功能2022-3-8史忠植 高級人工智能25數據抽取和集成數據抽取和集成: : MSETLMSETL2022-3-8史忠植 高級人工智能26數據
11、抽取和集成數據抽取和集成: : MSETLMSETL2022-3-8史忠植 高級人工智能27數據倉庫平臺:數據倉庫建模數據倉庫平臺:數據倉庫建模產品號產品名稱產品目錄產品維表訂單號訂貨日期訂貨維表客戶號客戶名稱客戶地址客戶維表產品號客戶號訂單號時間標識地區名稱產品數量總價事實表時間標識月季度年時間維表地區名稱省別地區維表星型模型2022-3-8史忠植 高級人工智能28OLAPMOLAP, ROLAP, HOLAPOLAP 的操作Slice (切片)Dice (切塊)Roll up (上卷)Drill down (下鉆)Pivot (旋轉)OLAP方案采用了自主開發的 OLAP Server20
12、22-3-8史忠植 高級人工智能29數據立方體數據立方體2022-3-8史忠植 高級人工智能30數據倉庫平臺:數據倉庫平臺:OLAPOLAP的實現的實現2022-3-8史忠植 高級人工智能31數據挖掘集成工具:結構數據挖掘集成工具:結構數據挖掘集成工具結構示意圖數據倉庫平臺任務編輯任務規劃和執行算法庫算法管理元數據任務模型庫、算法描述2022-3-8史忠植 高級人工智能32數據挖掘集成工具:數據挖掘集成工具:數據挖掘任務模型數據挖掘任務模型Step1Step2Step4Step3Step5DMTask = (V, R)V = x | x StepObjectsR = | P(x, y) x,
13、yV2022-3-8史忠植 高級人工智能33數據挖掘集成工具:數據挖掘集成工具:數據挖掘任務模型數據挖掘任務模型步驟對象BNF語法定義: := ; := |; := , := |; := , := | := | := *2022-3-8史忠植 高級人工智能34數據挖掘集成工具:編輯任務模型數據挖掘集成工具:編輯任務模型n任務向導2022-3-8史忠植 高級人工智能35數據挖掘集成工具:數據挖掘集成工具:編輯任務模型編輯任務模型n任務編輯圖板2022-3-8史忠植 高級人工智能36數據挖掘集成工具:數據挖掘集成工具:處理任務模型處理任務模型人機界面主控模塊規劃器解釋器緩存函數庫黑板任務模型庫數據
14、采掘任務處理引擎的結構2022-3-8史忠植 高級人工智能37數據挖掘集成工具:數據挖掘集成工具:處理任務模型處理任務模型任務規劃和解釋執行S1S3S2S4S5S1 - S2 - S3 - S4 - S52022-3-8史忠植 高級人工智能38數據挖掘集成工具:數據挖掘集成工具:DMLDML語言語言DML函數n人機交互和控制臺輸入/輸出n數值計算n字符串處理n圖形、圖表展示n文件操作n數據庫訪問n網絡通訊n對象訪問n消息處理和流程控制n黑板操作n外部功能調用n其它輔助功能2022-3-8史忠植 高級人工智能39數據挖掘集成工具:內嵌數據挖掘集成工具:內嵌n決策樹nSOM神經網絡n粗糙集n關聯規
15、則2022-3-8史忠植 高級人工智能40決策樹決策樹2022-3-8史忠植 高級人工智能41知識約簡知識約簡知識約簡在保持知識庫的分類或決策能力不變的條件下,刪除其中不相關或不重要知識冗余知識資源的浪費;干擾人們作出正確而簡潔的決策Rough Set把那些無法確認的個體都歸屬于邊界線區域,而這種邊界線區域被定義為上近似集和下近似集之差集(Z.Pawlak ) 知識約簡是粗糙集的核心內容之一 2022-3-8史忠植 高級人工智能42Rough Set約簡約簡2022-3-8史忠植 高級人工智能43數據挖掘集成工具:外聯數據挖掘集成工具:外聯nBP神經網絡n統計分析n模糊聚類n超曲面分類nSVM
16、n貝葉斯網絡n基于范例推理(CBR)n隱馬爾科夫模型(HMM)2022-3-8史忠植 高級人工智能44BP用于預測用于預測2022-3-8史忠植 高級人工智能45統計工具統計工具線性回歸模型一元線性回歸、多元線性回歸、逐步回歸 非線性回歸模型二次曲線、三次曲線、指數曲線、冪指數曲線、生產函數等模型 確定型時間序列模型指數平滑法、趨勢移動平均法(水平趨勢、線性趨勢和二次曲線趨勢)、成長曲線模型(Compertz曲線、Logistic曲線和修正指數曲線 )、季節指數法隨機型時間序列模型(自回歸移動平均模型ARMA)相關分析 2022-3-8史忠植 高級人工智能46自回歸移動平均自回歸移動平均( ARMA)2022-3-8史忠植 高級人工智能47模糊聚類模糊聚類基于傳遞閉包的模糊聚類計算模糊相似矩陣的傳遞閉包,從而獲得傳遞閉包法的模糊聚類基于攝動的模糊聚類參數系相似矩陣的最優模糊等價陣及其等價標準型獲得失真最小的模糊聚類2022-3-8史忠植 高級人工智能48數據挖掘集成工具:數據挖掘集成工具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 本科三方協議書
- 車輛置換合同協議范本
- 超市違約協議合同協議
- 灰土處理協議書
- 車子劃傷協議書范本
- 超級云計算合同協議
- 公司并購重組保密協議公司年
- 通信物資購銷合同協議
- 轉讓餐飲攤位合同協議
- 轉注冊合同協議
- 靜脈輸液輸液反應課件
- GB/T 18601-2009天然花崗石建筑板材
- 《野蜂飛舞》閱讀測試題及答案
- 運輸供應商年度評價表
- 廣東省廣州市天河區2023年中考二模化學試題(含解析)
- 《動物王國開大會》說課-優質課件
- 病媒生物監測記錄表
- 2017各科普通高中課程標準(電子版)
- 醇的性質高中化學一等獎公開課一等獎省優質課大賽獲獎課件
- HDI盲孔的可靠性設計分析
- 2022年四川綿竹高發投資有限公司招聘筆試題庫及答案解析
評論
0/150
提交評論