




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據挖掘入門
2012-9-61
引語
二.KDD與數據挖掘
三.數據挖掘方法
四.數據挖掘的應用和發展趨勢
五.多媒體數據挖掘
六.可視化數據挖掘
2012-9-62
一、引語
■什么激發了數據挖掘
近年來,數據挖掘引起了信息產業界的極大
關注,其主要原因是存在大量數據可以廣泛使用,
并且迫切需要將這些數據轉換成有用的信息和知
識。獲取的信息和知識可以廣泛應用于各種領域,
如商務管理、生產控制、市場分析、工程設計和
科學探索等。
面對〕海量數據庫和大量繁雜信息,如何才能
從中提取有價值的知識,進一步提高信息的利用
率,由此引發了一個新的研究方向:基于數據庫
的知識發現(KnowledgeDiscoveryinDatabase)及
相應的數據挖掘(DataMining)理論和技術的研
究。
2012-9-63
為什么數據挖掘是重要的
■數據的豐富帶來了對強有力的數據分析工
具的需求。
■快速增長的海量數據收集存放在大型和大
量的數據庫中,沒有強有力的工具,這些
數據就變成了“數據墳墓”——難得再訪
問的數據檔案。
■因此數據和信息之間的鴻溝要求系統地開
發數據挖掘工具,將數據墳墓轉換成知識
“金塊”。
2012-9-64
:、KDD與數據挖掘
人們給KDD下過很多定義,內涵也各不
相同,目前公認的定義是由Fayyad等人提出
的。
所謂基于數據庫的知識發現(KDD)是指
從大量數據中提取有效的、新穎的、潛在
有用的、最終可被理解的模式的非平凡過
程。
2012-9-65
2.2KDD過程
KDD是一個人機交互處理過程。該過程需
要經歷多個步驟,并且很多決策需要由用
戶提供。
■從宏觀上看,KDD過程主要經由三個部分
組成,即
2012-9-66
知識發現(KDD)的步驟
1.了解KDD應用領域的有關情況。包括
熟悉相關的知識背景,搞清用戶需求。
2.數據選取的目的是確定目標數據,根
據用戶的需要從原始數據庫中選取相關數據或樣
術°,在此建程中,將利用一些數據庫操作對數據
岸進行相關處理。
3.對步驟2中選出的數據進行再處理,
檢查數據的完整性及一致性,消除噪聲及與數據
蹊翎無關的?余黎超,、根強理回岳列和知的變
化情況,利用統計尊方法埴充丟失的藪P據。
2012-9-68
知識發現(KDD)的步驟
4.根據知識發現的任務對經過預
處理的數據再處理,主要是通過投影或利
用數據庫的其它操作減少數據量。
5.根據用戶的要求,確定
KDD要發現的知識類型。
6.根據步驟5確定的任務,選擇
合適的知識發現算法,包括選取合適的模
型和參數。
2012-9-69
知識發現(KDD)的步驟
7.這是整個KDD過程中很重要的一個步
臀血套板照的港普算法墓座出重取用戶
感興趣的知識,并以一7E的方式表不出來。
8.對在數據挖掘步驟中發現的模式(知
識)進行解釋。通過機器評估剔除冗余或無關模
武,惹模式不滿足,再返回到前面某些處理步驟
中反量控取。
9.將發現的知識以用戶能了解的方式呈
現給用戶。其中也包括對知識一致性的檢查,以
確信本次發現的知識不會與以前發現的知識相抵
觸。
2012-9-610
什么是數據挖掘
1.(從數據中發現知識)
從海量的數據中抽取感興趣的(有價值的、隱
含的、以前沒有用但是潛在有用信息的)模式和
知識。
2.
數據庫中知識挖掘、知識提取、數據/模式分析、
數據考古、數據捕撈、信息獲取、事務智能等。
3.廣義觀點
數據挖掘是從存放在數據庫、數據倉庫中或其
它信息庫中的大量數據中挖掘有趣知識的過程。
2012-9-611
數據挖掘(DM)
從信息中抽取隱含的、以前未
知的、具有潛在應用價值的信息技術,它能從
大量的信息中發現隱藏于其后的規律或信息間
的關系。
雖然在其它領域還缺乏根基,
但它們在客戶關系管理(CRM)數據分析中的
應用已經趨于成熟。這些工具通常采用機器自
動識別的方式,不需要更多的人工干預。
■這些工具的使用,使得從數據、信息到知識的
飛躍成為可能。
2012-9-612
數據挖掘看穿你的需求
■‘一4,住何叢藜斯庫史摺提值國的過程都叫做
數據挖掘。慶區點著萊,數據拉腦就是BI。
■,數據挖掘(DataMining)特指的
是工源數據經過清洗和轉換等成為適合于秋掘的數
據集。
■數據挖掘在這種具有固定形式的數據集上完成
人,「最后以合適的知識模式用于進一步分析決
策工作。
■從這種狹義的觀點上,可以定義:數據挖掘是從特
定形式的數據集中提煉知識的過程。數據挖掘往往
針對,選擇一種或者多種
拉掘算法,找到數據背后隱藏的規律,這些規律往
往。
2012-9-613
03和數據挖掘的區別
OLAP:報告過去的事情數據挖掘:fiS測未來的事情
在過去的3年里哪些人是我們最好的前100名
前100個具行最好的利潤潛力的客戶將是誰
客戶
在過去的2年里哪些客戶拖欠他們的抵押哪些客戶可能具有壞賬風險
和目標值相比?上個季度各個區域的銷售情況
明年各個地區的預期的倘例額是多少
如何
在最近的四個#度內哪此銷桃人員的銷例擷用明年啷些銷得人員的侑悔熟有希望超過他們的
過了他們的配穎配額
去年哪些商店的借售額超過了其前年的制售額接F來的兩年里,哪些商店有可能表現得最好
去年,表現最好的前5次促侑活動是什么明年的促銷活動的預期的回報是什么
去年哪些客戶移向了其他的電話公司明年序些客戶有可能轉向競爭對手的懷抱
2012-9-614
OLAP和數據挖掘的區別
特性OLAP數嫻挖掘
牛丁6m’發牛的事情預測它的
仰總諦求的動機企業里而正在發生什么事梢
求木
數據粒度匯總數據詳細的交易級別的數據
曲業健改的數期自做的維數大量的維度
傕度屬性的數鼠少尉屬性很多徘度屬性
通常每個維度的數據集都是『
維他的數據集的大小每個網用的數據集都不大
常大的
由數據驅動,自動進行如織發現
分析方法由用戶驅動,交卬式地進行分析
過程
多維的、向下鉆取利多層次/筮視
分析技術冷備數據JI入拽掘工具之后就
角查看不采取行動了
仍然處于發展階段,技術的一些
枝術的狀態成熟并使用廣泛
部分枷對成熟
2012-9-615
OLAP和數據挖掘的區別
數據挖掘
預處現過的數據
16
數據挖掘的主要流程(四個階
段)
系統的數據挖掘過程是一個不斷循環、優化的過程。
模
模
主
數
式
式
題
數據挖掘任務據知識應用
評
分
準
----------A------->發-------->
估
析
備
現
新的數據挖掘任務
2012-9-617
數據挖掘各階段的工作量
DM牽涉大量的規劃與準備,專家聲稱:高達80%的
過程花在準備數據階段。
60-
50-
40-
30-
20-
O
oL
2012-9-618
數據挖掘系統的組成
是一*個或一*組數
據庫、數據倉庫、電子表格或其他類型的至息庫。
可以在數據上進行數據清理和集成。
根據用戶的挖掘請求,
數據庫或數據倉庫服務器負責提取相關數據。
是領域知識,用于指導搜索,或評估結果
模式的興趣度。
2012-9-619
數據挖掘系統的組成
數據挖掘系統的基本部分,由一
組功能模塊組成,用工特優化、關聯、分類、聚
類分析以及演差和偏差分柝o
使用興趣度量,并與數據挖掘模
挑客三左以便道理塞聚焦有自整的模式上,可能
使南興趣度則直過濾發現將稹黃。
該模塊在用戶和數據挖掘系統之
間通信,允許用戶與系統交互,指定數據挖掘查
量新褊麒毓蟾鬻益氟根據數據
2012-9-620
數據挖掘系統結構
數據庫或數據倉庫服
冬器知識庫
數據清理T數親集成T過濾
2012-9-621
三、數據挖掘方法
3.1可以分別按挖掘任務、挖掘對象和挖掘方
法來分類。
1.包括分類或預測知識模
型發現,數據總結,數據聚類,關聯規則
發現,時序模式發現,依賴關系或依賴模
型發現,異常和趨勢發現等。
2.包括關系數據庫,面向
對象數據庫,空間數據庫,時態數據庫,
文本數據庫,多媒體數據庫,異構數據庫,
數據倉庫,演繹數據庫和Web數據庫等。
2012-9-622
3.包括統計方法,機器學習方法,
神經網絡方法和數據庫方法,其中:
>統計方法可分為:回歸分析(多元回歸、自回歸
等),判別分析(貝葉斯判別、費歇爾判別、非
參數判別等),聚類分析(系統聚類、動態聚類
等),探索性分析(主成分分析、相關分析等)
等。
>機器學習方法可分為:歸納學習方法(決策樹、
規則歸納等),基于范例學習,遺傳算法等。
>神經網絡方法可以分為:前向神經網絡(BP算法
等),自組織神經網絡(自組織特征映射、競爭
學習等)。
>數據庫方法分為:多維數據分析和OLAP技術,此
外還有面向屬性的歸納方法。
2012-9-623
數據挖掘技術分類
2012-9-624
數據挖掘分類
■描述型(Descriptive)
■預測型(Predictive)
?分類:對沒有分類的數據進行分類;
■預測:用歷史來預測未來;
?關聯分析:關聯規則;
■聚類:物以類聚;
?序列模式:在多個數據序列中發現共同的行為模式;
■描述和可視化:數據挖掘的結果的表示形式;
?偏差分析:從數據分析中發現異常情況。
2012-9-625
偏差分析
■數據庫中的數據,從數
據庫中檢測這些偏差很有意義。
■,如分類中的反
常實例、不滿足規則的特例、觀測結果與
模型預測值的偏差、量值隨時間的變化等。
■尋找觀測結果與
參照值之間有意義的差別。
2012-9-626
數據挖掘分類
■響應模型
-交叉銷售
?價值評估
■客戶分群
2012-9-627
3.2數據挖掘方法
■挖掘模型
■決策樹(decisiontree)
■關聯規則(associationrules)
■聚類(clustering)
■遺傳算法(geneticalgorithms)
■貝葉斯分類(Bayes)
-分類和預測
■神經網絡(ArtificialNeuralNetworks,簡記作ANN)
■粗糙集(roughset)
■模糊集(fuzzyset)
■概念格(conceptlattice)
■序列模式(sequencepattern)
?支持向量機(supportvectormachine,簡記作SVM)
■基于案例的推理(case-basedreasoning,簡記作CBR)
2012-9-628
決策樹
■一種用樹枝狀展現數據受各變量的影響情況的分析
根據對目標變量產生效應的不同而制定
分類規則,它是建立在信息論基礎之上,對數據進
行分類的一種方法。
■它首先通過一批建立一棵決策樹,
然后采用建好的決策樹對數據進行預測。
■數據規則的生成過程,因此這
種方法實現了數據規則的可視化,其輸出結果容易
理解,精確度較好,效率較高,因而較常用。
■分類及回歸樹法、卡方自動交互探
測法等。
2012-9-629
決策樹
■決策樹學習是以實例為基礎的歸納學習算法,
著眼于從一組無次序/無規則的事例中推理出
決策樹表示形式的分類規則;
■:貪心算法。它以自頂向
下遞歸、各個擊破方式構造決策樹.
salary<20,000
salaryeducationlabel
10.000high-schoolrejectno
40,000under-graduateaccept
educationin[graduate)accept
15,000under-graduatereject
yeno
75,000graduateaccept
18.000graduateaccept
accept口reject
2012-9-630
關聯分析
□關聯規則反映一個事物與其它事物之間的相互依存性和關
如果兩個事物或者多個事物之間存在一定的關聯關
系,那么其中一個事物就能夠通過其他事物預測到。
□人們希望在海量的商業交易記錄中發現感興趣的數據關聯
關系,例如:
面包2%牛奶1.5%(占超市交易總數)
2%和1.5%表明這兩種商品在超市經營中的重要程度,
商家關注高支持度的產品。
面包二〉牛奶60%
在購買面包的交易中,有60%的交易既買了面包又買
了牛奶,則60%為規則“面包二〉牛奶”的信任度。
反映了商品間的關聯程度。
2012-9-631
關聯分析
□項目構成的集合稱為。項集在事物數據庫中出
現的次數占總事物的百分比叫做。如
果項集的支持度超過用戶給定的最小支持度閾值,
就稱該項集是。
□關聯規則就是支持度和信任度分別滿足用戶給定閾
值的規則。
□發現關聯規則需要經歷如下兩個步驟:
(1)找出所有的頻繁項。
(2)由頻繁項集生成滿足最小信任度閾值的規則。
2012-9-632
聚類分析
■聚類是對物理的或抽象的對象集合分組
的過程。聚類生成的組為簇,簇是數據
對象的集合。
■聚類是根據—征,將其劃分
為不同的簇(cluster),目的是使得
任意兩個具有
較高的相似度;而屬于不同簇的兩個對
象間具有較高的相異度(差別較大)。
2012-9-633
聚類分析
■相異度可以根據描述對象的屬性值計
算,對象間的距離是最常采用的度量
指標。
■在實際應用中,經常
作為一個整體看待。
■用聚類生成的簇來表達數據集不可避
免地會損失一些信息,但卻可以使問
題。
2012-9-634
聚類技術大致分為五種
(partitioningmethod)
(hierarchicalmethod)
(density-based
method)
(grid-basedmethod)
(model-basedmethod)
2012-9-635
遺傳算法
□一種新的最佳化空間搜索方法,它應用算法的適
應函數耒決定搜索的方高,運用一些擬星物化的
人工運算過程進行一代一代的周而復始的演化,
求得一個最佳結果。
□具有強固形與求值空間的獨立性。
強固形使問題的限制條件降到最低,并大幅度提
高系統的容錯能力;
求值空間的獨立性則使遺傳算法的設計單一化,
且適用于多種不同性質、領域的問題。
□將遺傳算法運用于數據挖掘,可以開采出與眾不
同的信息,O
2012-9-636
遺傳算法
■(GeneticAlgoritms,簡稱GA)是
以自然選擇和遺傳理論為基礎,將生物進
化過程中“適者生存”規則與群體內部染
色體的隨機信息交換機制相結合的搜索算
法;
■遺傳算法主要組成部分包括:
編碼方案
適應度計算
父代選擇
交換算子
2,2變異算子37
貝葉斯分類
■貝葉斯分類是統計學的分類方法,
是使用概率來表示所有形式的不確
定性,學習或推理都用概率規則來實現;
■:假定一個屬性值對給定類
的影響獨立于其他屬性的值;
■是用來表示變量間連接概率的
圖形模式,它提供了一種自然的表示因果信
息的方法,用來發現數據間的潛在關系。
2012-9-638
分類與預測
■分類和預測是兩種重要的數據分析方法,在商業上
的座用徨孥工分類邳球測可以用于提取描述重要
數據其型或預測未來的數據趨勢。
提出一個分類函數或分類模型
人即分類量)工通過分類器將數據對象映射到某一
個善定的笑別中。
第一步,建立模型,用于描述給定的數據集合。
耍髓需脯性描述的數據集合來建立反映數據集
金二步,用盛運對數據對象進行分類。
從歷史數據記錄中自動推導出對
給定數據的推廣描述,從而能夠對事先未知的數
據進行預測。
2012-9-639
分類的方法
決策樹內部節點進行屬性值測試,并根據
屬性值判斷由該節點引出的分支,在決策樹的葉結
翻I患羯翩集合,葉節
是一種統計學分類方法,可以預測類
成員關系的可能性,如給定樣本屬于一個特征類的
寓送魏群髓部菌類、字母識別、經濟
模擬生物進化過程中的計算模
型,是自然遺傳學與計算機科學互相結合、互相滲
透而形成的新的計算方法。利用選擇、交叉、變異
等操作對子代進行操作,優點是:問題求解與初始
條任王養二堪案鬟俅解的能力極強,可以對各種數
據核掘我術進行優袱。
2012-9-640
預測
構造和使用模型評估無標號樣本類,或評
估給定樣本可能具有的屬性值或區間值。
從歷史數據中自動推導出對給定數
據的推廣描述,從而能對未來數據進行預測。例如:
金融系統可以根據顧客信譽卡消費量預測他未來的
刷卡消費量或用于信譽證實。
推銷人員希望在開拓新客戶時,找出顧客一些共同
特征,預測出潛在顧客群。
回歸統計,線性回歸、非
線性回歸、多元回歸、泊松回歸、對數回歸等。
也可以用來預測。
2012-9-641
神經網絡
□人工神經網絡,是對人類大腦系統的模擬;
□
互聯的網絡,能夠篇£*患寓*£扁露I
□組成神經網絡的的結構簡單,功能有限,
但尾,由大量神經元構成的網絡系統可以實現強大
的功能。
□由于現實世界的數據關系相當復雜,和
噪聲數據普遍存在。將人工神經網絡應用于數據挖
雕蠲麟懿鼾處理能力和,得到
較好的
.1甬
學習荷間
2012-9-642
神經網絡
■神經網絡是一組連接的輸入/輸出單元,其中
O在學習階段,通
過調整神經網絡權值,使得能夠預測輸入樣本
的正確類標號來學習。
■和權值的調整
2012-9-643
神經網絡
圖4:一個神經元網絡05:帶權重般的裸玩網絡
2012-9-644
神經網絡
■為解決大復雜度問題提供了一種
相對來說比較有效的簡單方法。神經網絡
可以很容易的解決具有上百個參數的問題。
■很容易在并行計算機上實現,可
以把他的節點分配到不同的CPU上并行計
■神經網絡很難解釋,目前還沒有能對神經
網絡做出顯而易見解釋的方法學。
2012-9-645
神經網絡
在訓練神經網絡時一定要
恰當的使用一些能嚴格衡量神經網絡的方法,如
測試集方法和交叉驗證法等。這主要是由于神經
網絡太靈活、可變參數太多,如果給足夠的時間,
他幾乎可以“記住”任何事情。
訓練一個神經網絡可能需要
相當可觀的時間才能完成。當然,一旦神經網絡
建立好了,在用它做預測時運行時還是很快。
■建立神經網絡需要做的很大。
2012-9-646
粗糙集
□1982年波蘭數學家Z.Pawlak針對G.Frege的
提出了粗糙集(RoughSet),他把那些無法確認的個
體都歸屬于邊界線區域,而這種邊界線區域被定義為上
近似集和下近似集之差集。
□它恰好反映了人們用粗糙集方
法處理不分明問題的常規性,即以不完全信息或知識去
處理一些不分明現象的能力,或依據觀察、度量到的某
些不精確的結果而進行分類數據的能力。
■粗糙集理論是一種的數學工
具;
■,每一被劃分的集合稱為
概念,主要思想是:利用已知的知識庫,將不精確或不
確定的知識用已知的知識庫中的知識萊近似刻劃處理。
2012-9-647
粗糙集
■粗糙集對不精確概念的描述方法是:通過上近似概念和下
近似概念這兩個精確概念來表示;一個概念(或集合)的
下近似指的是其中的元素肯定屬于該概念;一個概念(或
集合)的上近似指的是其中的元素可能屬于該概念。
■:不需要預先知道的額外信息(如
統計中要求的先驗概率和模糊集中要求的隸屬度);算法
簡單,易于操作。
■粗糙集理論在知識發現研究中有著許多具體應用,
數據之間(精確的或近似的)依賴關系發現、評價某
一分類(屬性)的重要性、數據相似或差異發現、數據模
式發現、從數據中產生一般決策規則、削減冗余對象與屬
性、尋求屬性的最小子集以確保產生滿意的近似分類等等
2012-9-648
模糊集
■對應二值邏輯,一個元素要么
屬于、要么不屬于給定集合。因此經典集合
不能很好地描述具有模糊性和不確定性的問
題。
■美國加利福尼亞大學的扎德教授于1965年提
出了模糊集合論,用來描述差異的
中間過渡,是一種用精確的數學語言對模糊
性進行描述的方法。
■不同于經典集合,沒有精確邊界的集
合;
2012-9-649
模糊集
■論域x={x}上的模糊集合A由隸屬函數
)LIA(X)來表征。其中|iiA(x)在實軸的閉區間[0,1]中
取值,心㈤的大小反映x對于模糊集合A的隸屬
程度。
-心㈤的值接近1,表示X隸屬于A的程度很高。
屋⑶的值接近3表示x隸屬于A的程度很低。
■當S的值域取[0,1]閉區間的兩個端點,
亦即{0,1}兩個值時,A
O隸屬函數也就退化為普通邏輯值。
2012-9-650
概念格
■概念格描述的是對象和屬性之間的聯系和統一,表
明概念之間的泛化和例化關系,相應的Hasse圖實現
數據的可視化。
屬性,
#0([1,2,3,4,5,6},力)
對象二
芳FTRTETMfS”
一■「
X]?fi?-ri-?ei-?mi+s#2({1,2,3,6}bl晟})2,4,6),fsl})4,5},{el}).
X”-,&TriTe3-,miTS],
XjY-?6Tli->e3flni-?S3+'#5([岑3}#6((b2,4}
-?HfeifinzTSi,]松思}))
Xj-?-?5ftLei—m?.sN
X,T?0-*八->e2TmiTSI,,
2012-9-651
序列模式
■是指在多個數據序列中發現共同的行為模式。
■通過時間序列搜索出重復發生概率較高的模式。這
里強調時間序列的影響。
例如,在所有購買了激光打印機的人中,半年后
80%的人再購買新硒鼓,20%的人用舊硒鼓裝碳
粉;
在所有購買了彩色電視機的人中,有60%的人再
購買VCD產品;
■在時序模式中,需要找出在某個最短時間內出現比
率一直高于某一最小百分比(閾值)的規則。
2012-9-652
支持向量機
■支持向量機(SupportVectorMachine,SVM)
建立在計算學習理論的結構風險最小化
之上。
■其核心問題是尋找一種歸納原則,以實現
最小化風險,從而實現最佳的推廣能力。
■SVM一個重要的優點是可以處理
的情況。
■以往的機器學習理論的核心是經驗風險最
(ERM)
2012-9-653
案例推理
■案例是一段。
■該知識表達了在達到其目標的
過程中能起關鍵作用的經驗
2012-9-654
幾個概念的區別
■泰壽增指將數據歸于一系列已知類別之中的某個類的分
■客體進行類別的
二O
分類和預測
■是兩種數據分析形式.是兩類主要的預測問題
■分類是預測分類號(或者離散值);
■而預測是建立連續值(例如使用回歸分析)的函數模型
■預測和回歸
建立模型,并用此
■預測的典型方法就是回歸分析。
2012-9-655
其他問題
■數據挖掘的涉及到的技術
包括:
分布
并行
異質數據庫等
2012-9-656
四、數據挖掘系統與應用
數據挖掘系統的開發工作十分復雜,不僅要有大量的
數據挖掘算法,而且其應用領域往往取決于最終用戶的知
識結構等因素。下面介紹幾個數據挖掘系統:
MIT噴氣推進實驗室與天文科學家合作開發的
而開發的
O會產生“如果在某一時間段內發生某些預警信息組
合,那么其他類型的預警信息將在某個時間范圍內發生”
的規則。時間段大小由用戶定義。
運用分類技術從噪聲中提取有價值的信息。由于是
在微弱變化中獲取信息,該系統也可以應用于
o
2012-9-657
>KDW是大型商業數據庫中的交互分析系統。包括聚類、
分類、總結、相關性分析等多種模式。
>DBMiner是加拿大SimonFraser大學開發的一^個多任務KDD
系統。能夠完成多種知識發現,綜合了多種數據挖掘技術。
>Clementine可以把直觀的圖形用戶界面與多種分析技術結
合在一起,包括神經網絡、關聯規則和規則歸納技術。
>Darwin包含神經網絡、決策書和K-鄰近三種數據挖掘方法,
處理分類、預測和預報問題。
>DMW是一個用在信用卡欺詐分析方面的數據挖掘工具,
支持反向傳播神經網絡算法,并能以自動和人工模式操作
>IntelligentMiner是IBM開發的包括人工智能、機器學習、
語言分析和知識發現領域成果在內的復雜軟件解決方案。
2012-9-658
五、多媒體數據挖掘
■多媒體數據庫系統由多媒體數據庫管理系統和多
媒體數據庫構成。其中多媒體數據庫用于存儲和
管理多媒體數據,多媒體數據庫管理系統負責對
多媒體數據庫進行管理。多媒體數據庫包括結構
化的fife半結核化的數據型韭箱構強田數握
如音頻數據、視凝及據、文本藪據和圖像數據K等。
■多媒體數據挖掘就是通過綜合分析多媒體數據的
內容和語義,從大量多媒體數據中發現隱含的、
有效的、有價值的、可理解的模式,得出事件的
孽屣草原型去騏未系,為用戶提供問題求解層次
上的決策支持能力。
2012-9-659
多媒體數據挖掘
■多媒體數據是指由多種不同類型多媒體數據組成
的,包括文本、圖形、圖像、聲音、視頻圖像、
動畫等不同類型的媒體數據。為了挖掘多媒體數
據Z必須對兩種或多種類型的媒體數據進行綜合
O
■多媒體挖掘的方法有兩種:
一種是先從多媒體數據庫中提取出結構化數據,
然后用假統的數據挖掘工具在這些結構化的數據
上進行捶掘。
O
2012-9-660
六、可視化數據挖掘
■可視化:使用計算機圖形學創建可視化圖像,幫助用
戶理解復雜,大規模數據
■可視化數據挖掘:使用可視化技術,從大規模數據集
中發現隱含,有用知識的過程
2012-9-661
信息可視化
■信息可視化:結合了科學可視化、人機交
互、數據挖掘、圖像技術、圖形學、認知
科學等諸多學科的理論和方法,而逐步發
展起來的。
■信息可視化參考模型
2012-9-662
可視化數據挖掘
■可視化的目的
■提供對大規模數據集定性的理解
■查看數據中的模式,趨勢,結構,不規則性,
關系等
■幫助尋找感興趣的區域,為進一步定量分析提
供合適的參數
■為計算機得出的結果提供可視化的證明
2012-9-663
可視化數據挖掘
■可視化與數據挖掘的結合
■數據可視化
■數據挖掘結果可視化
■數據挖掘過程可視化
■交互式可視化數據挖掘
2012-9-664
數據可視化
■數據可視化
■以下面兩種方式觀察數據庫或數據倉庫的數據:
■在不同的粒度或抽象層面觀察
■屬性或維度的不同結合
■數據可以被表示成不同的格式,柱狀圖、餅狀
圖、散點圖、三維立方體、曲線、數據分布圖
表等
2012-9-665
MineSet—數據可視化
■數據的直方圖,均值,中值,標準差,四
分位數
horsepower
v,luzCategoryTottiValues
Car4l|mHH4C
---I?,
djittun
buick
?ediAnbond*
Mtrcury
。皿sb”?
tot^lvalue*
distinctvaluer
2012-9-666
數據挖掘結果可視化
■以視圖的形式給出由數據挖掘算法得出的結
果或知識
■例如
■決策樹
■貝葉斯網絡
■關聯規則
■聚類
■孤立點
2012-9-667
SASEnterpriseMiner:scatterplots
BUSINESS
A
L
3ACEQS?K9Io
6■?39
濡
suo/5Z新311?K
」
?-?
6-sIs5H-3NySb06?,4
?
?」
os431B一S402117108
?7?
*a.823■-4I0A
s0A?795R
7W-?97
I56s一??
3rL46RG11718il?
??8:16
4一
;?1S6z946ss93,
?
一6
lJ1?I
s5sB8.S
-sr0I0063gS,B?、
?2o4
6sa313g1?63B一x4
.?
6s一.13-10\
AA00?2R3
?
-fvoGn174.76tin?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 借租民族服裝合同范本
- 婚內財產約定合同范本
- 建房施工合同書和協議書
- 攤位出租合同解除協議書
- 土地承包居間合同范本
- 李現比糖還甜合同范本
- 委托代購施工材料協議書
- 農業種植土地購買協議書
- 2025加盟協議合同范本
- 2025溫州房屋租賃合同樣本
- 施工單位回執單
- 久坐危害及預防
- 王春武-農藥干懸浮劑(DF)項目研究與開發
- 幼兒啟蒙12電子狗機器人課件
- 《好的數學:數的故事》讀書筆記模板
- 2023國家開放大學:《人文英語1》形考答案解析5-8unit
- 土溶洞處理監理實施細則
- 道路危險貨物運輸安全標準化手冊
- 名校版初中物理“公式+考點+方法技巧”大匯編
- 醫院消毒供應中心CSSD專科知識《CSSD器械消毒與干燥方式的正確選擇》精美培訓課件
- 杠桿(CA1340自動車床)加工工藝及夾具設計
評論
0/150
提交評論