數據挖掘技術_第1頁
數據挖掘技術_第2頁
數據挖掘技術_第3頁
數據挖掘技術_第4頁
數據挖掘技術_第5頁
已閱讀5頁,還剩48頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘技術數據挖掘的由來

背景網絡之后的下一個技術熱點數據爆炸但知識貧乏從商業數據到商業信息的進化背景人類已進入一個嶄新的信息時代數據庫中存儲的數據量急劇膨脹全球信息量以驚人的速度急劇增長目前的數據庫系統雖然可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。產生了一個新的研究方向:基于數據庫的知識發現(KnowledgeDiscoveryinDatabase),以及相應的數據挖掘(DataMining)理論和技術的研究隨著大數據庫的建立和海量數據的不斷涌現,必然提出對強有力的數據分析工具的迫切需求。但現實情況往往是“數據十分豐富,而信息相當貧乏。”快速增長的海量數據收集、存放在大型數據庫中,沒有強有力的工具,理解它們已經遠遠超出人的能力。因此,有人稱之為:“數據墳墓”。由于專家系統工具過分依賴用戶或專家人工地將知識輸入知識庫中,而且分析結果往往帶有偏差和錯誤,再加上耗時、費用高,故不可行。數據礦山信息金塊數據挖掘工具網絡之后的下一個技術熱點大量信息在給人們帶來方便的同時也帶來了一大堆問題:信息過量,難以消化信息真假難以辨識信息安全難以保證信息形式不一致,難以統一處理數據爆炸但知識貧乏

隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。目前的數據庫系統可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。從商業數據到商業信息的進化

進化階段商業問題支持技術產品廠家產品特點數據搜集

(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBMCDC提供歷史性的、靜態的數據信息數據訪問

(80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關系數據庫(RDBMS)結構化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級提供歷史性的、動態數據信息數據倉庫決策支持

(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?”聯機分析處理(OLAP)多維數據庫數據倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動態的數據信息數據挖掘

(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法多處理器計算機海量數據庫PilotLockheedIBMSGI其他初創公司提供預測性的信息KDD的出現數據挖掘是八十年代投資AI研究項目失敗后,AI轉入實際應用時提出的。它是一個新興的,面向商業應用的AI研究。基于數據庫的知識發現(KDD)一詞首次出現在1989年舉行的第十一屆AAAI學術會議上。1995年在加拿大蒙特利爾召開了第一屆KDD國際學術會議(KDD’95)。由KluwersPublishers出版,1997年創刊的《KnowledgeDiscoveryandDataMining》是該領域中的第一本學術刊物。KDD的出現

隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算法、知識表示、知識運用等問題。最初,數據挖掘是作為KDD中利用算法處理數據的一個步驟,其后逐漸演變成KDD的同義詞。

數據挖掘數據庫技術統計學高性能計算人工智能機器學習可視化數據挖掘是多學科的產物KDD已經成為人工智能研究熱點目前,關于KDD的研究工作已經被眾多領域所關注,如過程控制、信息管理、商業、醫療、金融等領域。作為大規模數據庫中先進的數據分析工具,KDD的研究已經成為數據庫及人工智能領域研究的一個熱點。數據挖掘的應用電信

:流失銀行:聚類(細分),交叉銷售百貨公司/超市:購物籃分析

(關聯規則)保險:細分,交叉銷售,流失(原因分析)信用卡:

欺詐探測,細分電子商務:

網站日志分析稅務部門:偷漏稅行為探測警察機關:犯罪行為分析醫學:

醫療保健英國電信需要發布一種新的產品,需要通過直郵的方式向客戶推薦這種產品。。。。。。使直郵的回應率提高了100%電信GUS日用品零售商店需要準確的預測未來的商品銷售量,降低庫存成本。。。。。。通過數據挖掘的方法使庫存成本比原來減少了3.8%零售商店美國國內稅務局需要提高對納稅人的服務水平合理安排稅務官的工作,為納稅人提供更迅捷、更準確的服務稅務局銀行金融事務需要搜集和處理大量的數據,由于銀行在金融領域的地位、工作性質、業務特點以及激烈的市場競爭決定了它對信息化、電子化比其它領域有更迫切的要求。利用數據挖掘技術可以幫助銀行產品開發部門描述客戶以往的需求趨勢,并預測未來。美國商業銀行是發達國家商業銀行的典范,許多地方值得我國學習和借鑒。數據挖掘在銀行領域的應用美國銀行家協會(ABA)預測數據倉庫和數據挖掘技術在美國商業銀行的應用增長率是14.9%。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關系優化;風險控制等數據挖掘和知識發現數據挖掘(DataMining)從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與之相似的概念稱為知識發現。知識發現(KnowledgeDiscoveryinDatabases)是用數據庫管理系統來存儲數據,用機器學習的方法來分析數據,挖掘大量數據背后隱藏的知識,稱為數據庫中的知識發現。數據挖掘和數據倉庫大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中。從數據倉庫中直接得到進行數據挖掘的數據有許多好處。數據倉庫的數據清理和數據挖掘的數據清理差不多,如果數據在導入數據倉庫時已經清理過,那很可能在做數據挖掘時就沒必要再清理一次了,而且所有的數據不一致的問題都已經解決了。數據挖掘與信息處理信息處理基于查詢,可以發現有用的信息。但是這種查詢的回答反映的是直接存放在數據庫中的信息。它們不反映復雜的模式,或隱藏在數據庫中的規律。數據挖掘與聯機分析OLAP分析過程在本質上是一個演繹推理的過程,是決策支持領域的一部分。數據挖掘在本質上是一個歸納推理的過程。數據挖掘和OLAP具有一定的互補性。數據挖掘與人工智能、統計學一些新興的技術同樣在知識發現領域取得了很好的效果,如神經元網絡和決策樹,在足夠多的數據和計算能力下,它們幾乎不需人工干預就能自動完成許多有價值的功能。數據挖掘就是充分利用了統計學和人工智能技術的應用程序,并把這些高深復雜的技術封裝起來,使人們不用自己掌握這些技術也能完成同樣的功能,并且更專注于自己所要解決的問題。數據挖掘與統計學數據挖掘分析海量數據許多數據庫都不適合統計學分析需要數據挖掘的定義數據挖掘是從大量數據中提取或“挖掘”知識。與數據挖掘類似但稍有不同含義的術語有:從數據庫中發現知識(KnowledgeDiscoveryfrom/inDatabase,KDD)知識提取(Knowledgeextract)數據/模式分析(Data/Modelanalysis)。數據考古數據捕撈技術上的定義商業角度的定義

技術上的定義數據挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。商業角度的定義數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。

數據挖掘的定義(續)人們給數據挖掘下過很多定義,內涵也各不相同,目前公認的定義是由Fayyad等人提出的。所謂基于數據庫的知識發現(KDD)是指從大量數據中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。數據挖掘的數據來源關系數據庫數據倉庫事務數據庫高級數據庫系統和高級數據庫應用面向對象數據庫空間數據庫時間數據庫和時間序列數據庫文本數據庫和多媒體數據庫異種數據庫WWW數據挖掘過程數據挖掘是一個反復迭代的人機交互處理過程。該過程需要經歷多個步驟,并且很多決策需要由用戶提供。

從宏觀上看,數據挖掘過程主要由三個部分組成,即數據整理、數據挖掘和結果的解釋評估。

數據挖掘功能

數據挖掘任務有兩類:第一類是描述性挖掘任務:刻劃數據庫中數據的一般特性;第二類是預測性挖掘任務:在當前數據上進行推斷,以進行預測。概念/類描述:特征化和區分概念/類描述(class/conceptdescription):用匯總的、簡潔的、精確的方式描述每個類和概念。數據特征化(datacharacterization):是目標類數據的一般特征或特性的匯總。其中數據特征的輸出形式有:餅圖、條圖、曲線、多維數據立方體、多維表等。數據區分(Datadiscrimination):是將目標類對象的一般特性與一個或多個對比類對象的一般特性比較。關聯分析(1)定義:關聯分析(associationanalysis):發現關聯規則,這些規則展示“屬性—值”頻繁地在給定數據集中一起出現的條件。關聯規則(associationrule):“X

Y”,即

A1

A2

AmB1

B2

Bn

關聯規則分為兩類:一類是“多維關聯規則”(multi-dimensionalassociationrule);另一類是“單維關聯規則”(single-dimensionalassociationrule)。(2)實例

age(x,“20..29”)income(X,“20K..29K”)buys(X,“CD_player”)[support=2%,confidence=60%]有效的知識發現系統為使知識發現系統更加有效,有幾個軟、硬件問題需要強調:

為使數據服務更加詳盡,必須研究基礎的體系結構、算法和數據結構。

解決存儲管理中的新問題,開發有效的存儲機制。高層次的查詢語言成為重要的研究課題。描述多維對象的可視化工具在知識表示中將起重要作用。可視化數據挖掘數據可視化數據挖掘結果可視化數據挖掘處理過程可視化交互式的可視化挖掘VisualizationofassociationrulesinMineSet3.0交互式的可視化挖掘數據挖掘工具目前,世界上比較有影響的典型數據挖掘系統有:SAS公司的EnterpriseMinerIBM公司的IntelligentMinerSGI公司的SetMinerSPSS公司的ClementineSybase公司的WarehouseStudioRuleQuestResearch公司的See5還有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。

數據挖掘過程步驟步驟名稱

描述

1數據倉庫DataWarehouse數據倉庫管理用于決策支持的數據。在該步驟內,數據從操作型系統以及第三方的數據源聚集、清洗、以及轉換到數據倉庫中,供決策分析使用。

2數據挖掘DataMining在這個步驟中,數據從數據倉庫抽取出來,用來產生預測模型或者規則集。該步驟可以自動化。

3預測模型PredictiveModeling在該步驟內,為了產生一個優化的模型,一個或多個預測模型被選擇或者聯合。這些預測模型可能從數據挖掘系統產生,也可能從統計模型中產生,或者通過第三方購買。4預測記分PredictiveScoring在這個步驟中,選擇的預測模型對操作型數據或者交易數據進行記分(score)

數據挖掘系統結構數據倉庫數據清洗和集成過濾數據庫數據庫或數據倉庫服務器數據挖掘引擎模式評價圖形用戶接口知識庫粗糙集(RoughSet)粗糙集理論是波蘭數學家Z.Pawlak于1982年提出的,是一種新的處理含糊性(Vagueness)和不確定性(Uncertainty)問題的數學工具。

粗糙集理論的主要優勢之一就在于它不需要關于數據的任何預備的或額外的信息。

粗糙集可以用于對信息系統的屬性進行約簡,即求出原有屬性集合的一個子集,該子集具有與原屬性集合相同的分類能力。

粗糙集已廣泛應用于知識發現、機器學習、決策支持、模式識別、專家系統、歸納推理等領域。

聚類(Clustering)

聚類(Clustering)是將物理或抽象的對象集合分成多個組的過程,聚類生成的組稱為簇(Cluster),即簇是數據對象的集合。聚類就是要讓生成的簇內部的任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。

聚類分析從統計學的觀點看,聚類分析是對數據建模,從而簡化數據的一種方法,作為多元統計分析的主要分支之一,聚類分析已被研究了很多年,主要集中在基于距離和基于相似度的聚類方法。

從機器學習的觀點看,簇相當于隱藏模式,聚類是搜索簇的無監督學習過程。

從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。數據挖掘領域主要研究面向大型數據庫、數據倉庫的高效和實用的聚類分析算法。

聚類分析數據挖掘中的聚類分析數據挖掘關心聚類算法的如下特性:處理不同類型屬性的能力、對大型數據集的可擴展性、處理高維數據的能力、發現任意形狀簇的能力、處理孤立點或“噪聲”數據的能力、對數據順序的不敏感性、對先驗知識和用戶自定義參數的依賴性、聚類結果的可解釋性和實用性、基于約束的聚類等。

主要的數據挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網格的方法、基于模型的方法等。

關聯規則

Agrawal針對大型超市的銷售數據庫建立了關聯規則模型和數據挖掘算法。所謂關聯規則是指數據集中支持度和信任度分別滿足給定閾值的規則。幾年來,在基于關聯規則的算法研究中先后出現了AIS、SETM等數據挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。Apriori算法的核心思想是把發現關聯規則的工作分為兩步:第一步通過迭代檢索出事務數據庫中的所有頻繁項集,即頻繁項集的支持度不低于用戶設定的閾值;第二步從頻繁項集中構造出滿足用戶最低信任度的規則。決策樹決策樹提供了一種展示類似“在什么條件下會得到什么值”這類規則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,為了解決這個問題而建立的一棵決策樹,從中我們可以看到決策樹的基本組成部分:決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論