




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)O家澤sunjiaze@數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘1關(guān)于本課程數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、模式發(fā)現(xiàn)、可視化技術(shù)、信息檢索等多個學(xué)科領(lǐng)域的知識。本課程系統(tǒng)地介紹了數(shù)據(jù)挖掘的概念、理論及其發(fā)展、重點(diǎn)介紹了數(shù)據(jù)挖掘技術(shù)及其在實(shí)踐中的應(yīng)用。數(shù)據(jù)挖掘關(guān)于本課程數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析2課程目標(biāo)通過本課程的學(xué)習(xí),掌握數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘過程、數(shù)據(jù)倉庫的概念、OLAP與數(shù)據(jù)挖掘的關(guān)系。掌握數(shù)據(jù)挖掘的常用技術(shù):決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析、統(tǒng)計(jì)學(xué)習(xí)等。熟悉數(shù)據(jù)挖掘技術(shù)在典型行業(yè)的應(yīng)用方法,具有運(yùn)用數(shù)據(jù)挖掘技術(shù)解決問題的能力。數(shù)據(jù)挖掘課程目標(biāo)通過本課程的學(xué)習(xí),掌握數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘過3課程體系數(shù)據(jù)挖掘概述數(shù)據(jù)倉庫與OLAP技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘課程體系數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘4學(xué)習(xí)方法課堂講授及自學(xué)理解數(shù)據(jù)挖掘的基本概念和原理。充分利用因特網(wǎng),查閱相關(guān)資料進(jìn)一步拓展知識面熟悉常用的數(shù)據(jù)挖掘軟件,提高數(shù)據(jù)挖掘的基本處理能力和動手能力。數(shù)據(jù)挖掘?qū)W習(xí)方法課堂講授及自學(xué)數(shù)據(jù)挖掘5成績考核考試成績由平時考勤+課堂討論+大作業(yè)數(shù)據(jù)挖掘成績考核考試成績由平時考勤+課堂討論+大作業(yè)數(shù)據(jù)挖掘6參考資料韓家煒,《數(shù)據(jù)挖掘:概念與技術(shù)(第二版)》,中文版,機(jī)械工業(yè)出版社王欣等,《SQLServer2005數(shù)據(jù)挖掘?qū)嵗治觥罚袊姵霭嫔鐢?shù)據(jù)挖掘.實(shí)用機(jī)器學(xué)習(xí)工具和技術(shù)WEKA手冊
/dataminingcourse/teaching.asp數(shù)據(jù)挖掘參考資料韓家煒,《數(shù)據(jù)挖掘:概念與技術(shù)(第二版)》,中文版,7參考網(wǎng)站
數(shù)據(jù)挖掘參考網(wǎng)站www.8需要使用的部分軟件SPSSWEKASQLServer2005標(biāo)準(zhǔn)版Excel數(shù)據(jù)挖掘需要使用的部分軟件SPSS數(shù)據(jù)挖掘9第1章
數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘第1章
數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘10數(shù)據(jù)挖掘數(shù)據(jù)挖掘11啤酒與尿布數(shù)據(jù)挖掘啤酒與尿布數(shù)據(jù)挖掘12引例:啤酒與尿布沃爾瑪超市建立數(shù)據(jù)倉庫,按周期統(tǒng)計(jì)產(chǎn)品的銷售信息,經(jīng)過科學(xué)建模后提煉決策層數(shù)據(jù)。發(fā)現(xiàn)每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時購買尿布和啤酒的記錄非常普遍。分析人員認(rèn)為這并非偶然,經(jīng)過深入分析得知,通常周末購買尿布的是男士,他們在完成了太太交給的任務(wù)后,經(jīng)常會順便買一些啤酒。得出這樣的結(jié)果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷售,結(jié)果尿布與啤酒的銷售額雙雙增長。
從上面的例子不難看出,數(shù)據(jù)管理的主要目的是獲取信息和分析信息以指導(dǎo)我們的行動或幫助我們作決策。數(shù)據(jù)挖掘引例:啤酒與尿布沃爾瑪超市建立數(shù)據(jù)倉庫,按周期統(tǒng)計(jì)產(chǎn)品的銷13引言從大量數(shù)據(jù)中提取出隱藏在其中的有用信息數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverDatabase,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘引言從大量數(shù)據(jù)中提取出隱藏在其中的有用信息數(shù)據(jù)挖掘14本章內(nèi)容一、數(shù)據(jù)挖掘技術(shù)的由來二、數(shù)據(jù)挖掘的定義三、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型四、數(shù)據(jù)挖掘?qū)ο笪濉?shù)據(jù)挖掘任務(wù)六、數(shù)據(jù)挖掘分類七、數(shù)據(jù)挖掘模型八、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘本章內(nèi)容一、數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘15數(shù)據(jù)挖掘數(shù)據(jù)挖掘16一、數(shù)據(jù)挖掘技術(shù)的由來信息爆炸但知識貧乏《紐約時報(bào)》一周報(bào)道的信息總量,比十八世紀(jì)一個人一生接觸的信息總量還多“我們正在被信息所淹沒,但我們卻由于缺乏知識而感到饑餓。”數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來信息爆炸但知識貧乏數(shù)據(jù)挖掘17一、數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時提出的。它是一個新興的,面向商業(yè)應(yīng)用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術(shù)語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識表示、知識運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個步驟,其后逐漸演變成KDD的同義詞。數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗18一、數(shù)據(jù)挖掘技術(shù)的由來現(xiàn)在,人們往往不加區(qū)別地使用兩者。KDD常常被稱為數(shù)據(jù)挖掘(DataMining),實(shí)際兩者是有區(qū)別的。一般將KDD中進(jìn)行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘(DataMining),數(shù)據(jù)挖掘是KDD中一個非常重要的處理步驟。數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理(CustomerRelationshipManagement,CRM)、商業(yè)智能(BusinessIntelligence,BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來現(xiàn)在,人們往往不加區(qū)別地使用兩者。KD19一、數(shù)據(jù)挖掘技術(shù)的由來支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)海量數(shù)據(jù)搜索強(qiáng)大的多處理器計(jì)算機(jī)數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)數(shù)據(jù)挖掘20二、數(shù)據(jù)挖掘的定義技術(shù)角度的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。該定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義技術(shù)角度的定義數(shù)據(jù)挖掘21二、數(shù)據(jù)挖掘的定義關(guān)于知識的解釋從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。實(shí)際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時還要能夠易于被用戶理解。最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義關(guān)于知識的解釋數(shù)據(jù)挖掘22二、數(shù)據(jù)挖掘的定義模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。模式按功能可以分為預(yù)測型模式和描述型模式。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是23二、數(shù)據(jù)挖掘的定義“從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如:數(shù)據(jù)挖掘(datamining)知識提取(knowledgeextraction)信息發(fā)現(xiàn)(informationdiscovery)信息收獲(informationharvesting)數(shù)據(jù)考古(dataarchaeology)數(shù)據(jù)模式處理(datapatternprocessing)“數(shù)據(jù)挖掘”的稱法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和MIS團(tuán)體使用的,在數(shù)據(jù)庫領(lǐng)域也得到了廣泛接受。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義“從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如24二、數(shù)據(jù)挖掘的定義商業(yè)角度的含義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘?qū)τ谄髽I(yè)的價值簡言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義商業(yè)角度的含義數(shù)據(jù)挖掘25二、數(shù)據(jù)挖掘的定義從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(20世紀(jì)60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(20世紀(jì)80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫,結(jié)構(gòu)化查詢語言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫、決策支持(20世紀(jì)90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問26數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。數(shù)據(jù)挖掘數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及27數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘受多學(xué)科的影響
數(shù)據(jù)挖掘數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘28數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是:在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知,有效和可用三個特征。(傳統(tǒng)是假設(shè)驅(qū)動、數(shù)據(jù)挖掘是發(fā)現(xiàn)驅(qū)動)數(shù)據(jù)挖掘數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表29數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)倉庫和數(shù)據(jù)集市是數(shù)據(jù)挖掘的一種數(shù)據(jù)源數(shù)據(jù)挖掘是數(shù)據(jù)倉庫的一個應(yīng)用對于數(shù)據(jù)挖掘,數(shù)據(jù)倉庫不是必需的。數(shù)據(jù)挖掘數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)倉庫和數(shù)據(jù)集市是數(shù)據(jù)挖掘的一種數(shù)據(jù)30數(shù)據(jù)挖掘和在線分析處理(OLAP)OLAP分析是建立一系列的假設(shè),然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個演繹推理的過程。數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個歸納的過程。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。數(shù)據(jù)挖掘數(shù)據(jù)挖掘和在線分析處理(OLAP)OLAP分析是建立一系列31數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來的好處。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題數(shù)據(jù)挖掘數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)32數(shù)據(jù)挖掘的本質(zhì)一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已有多年的歷史,只不過在過去數(shù)據(jù)收集和分析的一般目的是用于科學(xué)研究;另外,由于當(dāng)時計(jì)算能力的限制,很難實(shí)現(xiàn)大量數(shù)據(jù)的復(fù)雜分析。現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)并不是為了分析的目的而收集的,而是在商業(yè)運(yùn)作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的本質(zhì)一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘33實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。數(shù)據(jù)挖掘?qū)嵤?shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提34三、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型廣義知識關(guān)聯(lián)知識分類知識預(yù)測知識偏差知識。數(shù)據(jù)挖掘三、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型廣義知識數(shù)據(jù)挖掘35廣義知識廣義知識指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質(zhì)。廣義知識就是對大量數(shù)據(jù)的歸納、概括,提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)知識。描述統(tǒng)計(jì)是數(shù)據(jù)挖掘最基本的應(yīng)用之一,經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。如當(dāng)月公司利潤總額、比較不同區(qū)域的銷售量等。廣義知識的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如概念描述、多維數(shù)據(jù)分析、面向?qū)傩缘臍w約、概念分層等。數(shù)據(jù)挖掘廣義知識廣義知識指類別特征的概括性描述知識。數(shù)據(jù)挖掘36關(guān)聯(lián)知識數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)知識可分為簡單關(guān)聯(lián)規(guī)則、多層關(guān)聯(lián)規(guī)則、多維關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則和基于約束的關(guān)聯(lián)規(guī)則。典型例子是購物籃分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法主要有Apriori算法和頻繁模式樹(FP-樹)數(shù)據(jù)挖掘關(guān)聯(lián)知識數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。37案例:某超市的數(shù)據(jù)挖掘應(yīng)用美國的超市有這樣的系統(tǒng):當(dāng)你采購了一車商品結(jié)賬時,售貨員小姐掃描完了你的產(chǎn)品后,計(jì)算機(jī)上會顯示出一些信息,然后售貨員會友好地問你:我們有一種一次性紙杯正在促銷,位于F6貨架上,您要購買嗎?這句話決不是一般的促銷。因?yàn)橛?jì)算機(jī)系統(tǒng)早就算好了,如果你的購物車中有餐巾紙、大瓶可樂和沙拉,則86%的可能性你要買一次性紙杯。結(jié)果是,你說,啊,謝謝你,我剛才一直沒找到紙杯。這不是什么神奇的科學(xué)算命,而是利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的系統(tǒng)。數(shù)據(jù)挖掘案例:某超市的數(shù)據(jù)挖掘應(yīng)用美國的超市有這樣的系統(tǒng):當(dāng)你采38分類知識分類知識是反映同類事物共同性的特征型知識和不同事物之間的差異型特征知識。典型應(yīng)用:客戶細(xì)分。例如,銀行根據(jù)客戶的存款額、信用額和消費(fèi)金額把客戶分成不同的類別,分別辦理不同類型的銀行卡。算法有決策樹分類、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法等。數(shù)據(jù)挖掘分類知識分類知識是反映同類事物共同性的特征型知識和不同事物39預(yù)測知識預(yù)測型知識指的是預(yù)測連續(xù)值,是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘從過去有關(guān)促銷的數(shù)據(jù)中尋找在未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能做出反應(yīng)的群體。基于統(tǒng)計(jì)學(xué)習(xí)的回歸分析法,還有基于現(xiàn)代智能計(jì)算的神經(jīng)網(wǎng)絡(luò)、遺傳算法等各類時間序列分析法。數(shù)據(jù)挖掘預(yù)測知識預(yù)測型知識指的是預(yù)測連續(xù)值,是根據(jù)時間序列型數(shù)據(jù),40偏差知識偏差型知識是對差異和極端特例的描述,揭示事物偏離常規(guī)的異常現(xiàn)象。偏差即異常,在數(shù)據(jù)挖掘中有時也稱之為“孤立點(diǎn)”,可以用來發(fā)現(xiàn)“小的模式”偏差知識挖掘的一個典型應(yīng)用是檢測信用卡欺詐。基于統(tǒng)計(jì)的方法、基于距離的方法和基于偏離的方法數(shù)據(jù)挖掘偏差知識偏差型知識是對差異和極端特例的描述,揭示事物偏離常41案例:國內(nèi)某電信公司利用數(shù)據(jù)挖掘預(yù)測客戶知識2004年,某電信公司邀請國際某著名咨詢公司進(jìn)行市場營銷再造項(xiàng)目,將數(shù)據(jù)挖掘用于它的三個業(yè)務(wù)領(lǐng)域:客戶管理、網(wǎng)絡(luò)/產(chǎn)品/服務(wù)管理、市場/財(cái)務(wù)管理;公司將數(shù)據(jù)挖掘的重點(diǎn)放在了客戶管理。在電信市場競爭越來越激烈的今天,即使在擴(kuò)大其客戶群的時候,電信運(yùn)營商和其它代理商也必須密切監(jiān)視他們的現(xiàn)有客戶,并采用各種營銷方法來留住這些客戶。電信公司期望通過數(shù)據(jù)倉庫的實(shí)施和數(shù)據(jù)挖掘的應(yīng)用,能夠利用經(jīng)營分析系統(tǒng)進(jìn)行客戶分群、客戶獲取、客戶行為分析、客戶流失分析等。如今,電信公司已經(jīng)能夠利用現(xiàn)有的客戶數(shù)據(jù)來總結(jié)客戶行為的特點(diǎn),并預(yù)測客戶的下一步行為。例如,為了對付日益嚴(yán)重的客戶流失或業(yè)務(wù)流失狀況,電信公司采用基于決策樹的方法來分析客戶的流失特性,以便采取針對性的營銷措施,挽留有價值的客戶、減少客戶流失。數(shù)據(jù)挖掘案例:國內(nèi)某電信公司利用數(shù)據(jù)挖掘預(yù)測客戶知識2004年,某42四、數(shù)據(jù)挖掘?qū)ο?.關(guān)系數(shù)據(jù)庫數(shù)據(jù)庫中數(shù)據(jù)的特點(diǎn)如下:1)數(shù)據(jù)動態(tài)性、2)數(shù)據(jù)的不完全性、3)噪聲數(shù)據(jù)、4)數(shù)據(jù)類型不一致、5)異構(gòu)性、6)數(shù)據(jù)冗余性、7)數(shù)據(jù)稀疏性由于數(shù)據(jù)庫中的數(shù)據(jù)具有以上特點(diǎn),使其在挖掘過程中難以直接使用,因此在進(jìn)行數(shù)據(jù)挖掘以前必須對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.關(guān)系數(shù)據(jù)庫數(shù)據(jù)挖掘43四、數(shù)據(jù)挖掘?qū)ο?.數(shù)據(jù)倉庫數(shù)據(jù)倉庫的特點(diǎn)如下:
1)面向主題、2)集成的數(shù)據(jù)、3)不可更新、4)隨時間不斷變化高質(zhì)量的挖掘結(jié)果依賴于高質(zhì)量的數(shù)據(jù),數(shù)據(jù)倉庫為數(shù)據(jù)挖掘準(zhǔn)備了良好的數(shù)據(jù)源,因此,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的最佳環(huán)境。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.數(shù)據(jù)倉庫數(shù)據(jù)挖掘44四、數(shù)據(jù)挖掘?qū)ο?.文本文本是非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。文本分析包括:1)關(guān)鍵詞或特征提取2)相似檢索3)文本聚類4)文本分類數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.文本數(shù)據(jù)挖掘45四、數(shù)據(jù)挖掘?qū)ο?.多媒體數(shù)據(jù)圖像、音頻、視頻數(shù)據(jù)是典型的多媒體數(shù)據(jù)。多媒體數(shù)據(jù)廣泛存在于生活、醫(yī)學(xué)、軍事、娛樂等領(lǐng)域,目前,對于多媒體數(shù)據(jù)的挖掘主要有特征提取、基于內(nèi)容的相似檢索等。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.多媒體數(shù)據(jù)數(shù)據(jù)挖掘46四、數(shù)據(jù)挖掘?qū)ο?.Web數(shù)據(jù)Web使用模式挖掘:在Web環(huán)境中,文檔和對象一般都是通過鏈接來便于用戶訪問。捕捉用戶的存取模式或發(fā)現(xiàn)一個Web網(wǎng)站最頻繁的訪問路徑稱為Web使用模式挖掘或Web路徑挖掘。Web結(jié)構(gòu)挖掘:是挖掘Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.Web數(shù)據(jù)數(shù)據(jù)挖掘47四、數(shù)據(jù)挖掘?qū)ο?.復(fù)雜類型的數(shù)據(jù)1)空間數(shù)據(jù)庫如地理信息數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、地下管道、下水道、及各類地下建筑分布數(shù)據(jù)等。對空間數(shù)據(jù)的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。2)時間序列數(shù)據(jù)主要用于存放與時間相關(guān)的數(shù)據(jù),它可用來反映隨時間變化的即時數(shù)據(jù)或不同時間發(fā)生的不同事件。例如,連續(xù)存放即時的股票交易信息、衛(wèi)星軌道信息等。對時間序列數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢、演變過程和隱藏特征,這些信息對制定計(jì)劃、決策和預(yù)警是非常有用的。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.復(fù)雜類型的數(shù)據(jù)數(shù)據(jù)挖掘48五、數(shù)據(jù)挖掘任務(wù)概念描述關(guān)聯(lián)分析
分類與估值聚類孤立點(diǎn)分析時間序列分析預(yù)測數(shù)據(jù)挖掘五、數(shù)據(jù)挖掘任務(wù)概念描述數(shù)據(jù)挖掘49概念描述概念描述就是通過對某類數(shù)據(jù)對象進(jìn)行匯總、分析和比較,獲得對此類對象內(nèi)涵的描述,并概括這類對象的有關(guān)特征。概念描述可以通過下述方法得到:數(shù)據(jù)特征化和數(shù)據(jù)區(qū)分?jǐn)?shù)據(jù)特征化的輸出可以采用餅圖、柱狀圖、曲線、多維數(shù)據(jù)立方體、含交叉表的多維表等形式,描述結(jié)果也可以用概化關(guān)系或規(guī)則形式表示
數(shù)據(jù)區(qū)分的輸出類似于數(shù)據(jù)特征化,但它應(yīng)該包括比較度量,以幫助區(qū)分目標(biāo)類和比較類。數(shù)據(jù)挖掘概念描述概念描述就是通過對某類數(shù)據(jù)對象進(jìn)行匯總、分析和比較,50概念描述例1:我們收集移動電話費(fèi)月消費(fèi)額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進(jìn)行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;例2:對比移動電話費(fèi)月消費(fèi)額超出1000元的客戶群與移動電話費(fèi)月消費(fèi)額低于100元的客戶群。利用數(shù)據(jù)挖掘可作出如下描述:移動電話月消費(fèi)額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動電話月消費(fèi)額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。數(shù)據(jù)挖掘概念描述例1:我們收集移動電話費(fèi)月消費(fèi)額超出1000元的客戶51關(guān)聯(lián)分析關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、相關(guān)關(guān)系或因果結(jié)構(gòu),以及項(xiàng)集的頻繁模式。例如,購買計(jì)算機(jī)也趨向于同時購買財(cái)務(wù)管理軟件可以用以下關(guān)聯(lián)規(guī)則表示:[support=2%,confidence=60%]數(shù)據(jù)挖掘關(guān)聯(lián)分析關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、52分類與估值分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測類別未知的數(shù)據(jù)項(xiàng)的類別。類的內(nèi)涵描述分為:特征描述和辨別性描述。特征描述是對類中對象的共同特征的描述。辨別性描述是對兩個或多個類之間區(qū)別的描述。分類過程分兩步:第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類或概念集。第二步,使用模型對未分類的對象進(jìn)行分類。分類挖掘主要技術(shù)有決策樹、貝葉斯學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法等。數(shù)據(jù)挖掘分類與估值分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組53分類與估值估值與分類類似,只不過它要預(yù)測的不是類別,而是一個連續(xù)的數(shù)值。數(shù)據(jù)挖掘分類與估值估值與分類類似,只不過它要預(yù)測的不是類別,而是一個54聚類聚類是根據(jù)類內(nèi)事物的相似性最大、類間事物的相似性最小的原則把數(shù)據(jù)對象進(jìn)行聚類或分組。聚類與分類不同,它們的區(qū)別如下:第一,分類需要訓(xùn)練數(shù)據(jù)集,屬于有監(jiān)督的學(xué)習(xí);而聚類不需要訓(xùn)練數(shù)據(jù)集,屬于無監(jiān)督的學(xué)習(xí)。第二,在進(jìn)行分類以前,已知道數(shù)據(jù)的分類情況;而進(jìn)行聚類以前,對目標(biāo)數(shù)據(jù)的分類情況一無所知。常用的聚類方法包括統(tǒng)計(jì)分析方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。數(shù)據(jù)挖掘聚類聚類是根據(jù)類內(nèi)事物的相似性最大、類間事物的相似性最小的原55孤立點(diǎn)分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與集合中其它數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對象稱為孤立點(diǎn)。孤立點(diǎn)可以使用統(tǒng)計(jì)試驗(yàn)檢測。它假定一個數(shù)據(jù)的分布或概率模型,并使用距離度量,到其它數(shù)據(jù)對象的距離很遠(yuǎn)的對象被視為孤立點(diǎn)。基于偏差的方法通過考察一群對象主要特征上的差別識別孤立點(diǎn),而不是使用統(tǒng)計(jì)或距離度量。孤立點(diǎn)分析通常可以作為聚類分析的副產(chǎn)品,根據(jù)聚類分析結(jié)果,含有對象個數(shù)少于設(shè)定閾值的聚類中的事物看作是孤立點(diǎn)。數(shù)據(jù)挖掘孤立點(diǎn)分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與集合中其它數(shù)據(jù)56時間序列分析時間序列分析是描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。包括與時間相關(guān)數(shù)據(jù)的特征、區(qū)分、關(guān)聯(lián)、分類或聚類,根據(jù)分析的不同特點(diǎn)分為時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。如股票市場的每日波動、動態(tài)產(chǎn)品加工過程、科學(xué)實(shí)驗(yàn)、醫(yī)學(xué)治療等。數(shù)據(jù)挖掘時間序列分析時間序列分析是描述行為隨時間變化的對象的規(guī)律或趨57預(yù)測預(yù)測是從歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型預(yù)測未來數(shù)據(jù)種類、特征等。用分類預(yù)測離散數(shù)據(jù)用回歸分析預(yù)測連續(xù)數(shù)據(jù)。典型的回歸分析是利用大量的歷史數(shù)據(jù),建立線性或非線性回歸方程。根據(jù)回歸模型,只要輸入自變量的值,就可以求出因變量的值,達(dá)到對因變量的預(yù)測。數(shù)據(jù)挖掘預(yù)測預(yù)測是從歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型預(yù)測未58六、數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘59六、數(shù)據(jù)挖掘分類2.按數(shù)據(jù)挖掘?qū)ο蠓诸悓?shù)據(jù)庫進(jìn)行挖掘文本數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘。數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類2.按數(shù)據(jù)挖掘?qū)ο蠓诸悢?shù)據(jù)挖掘60六、數(shù)據(jù)挖掘分類3.根據(jù)挖掘的知識類型分類概念描述關(guān)聯(lián)分析分類預(yù)測聚類分析孤立點(diǎn)分析數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類3.根據(jù)挖掘的知識類型分類數(shù)據(jù)挖掘61六、數(shù)據(jù)挖掘分類4.按挖掘方法和技術(shù)分類歸納學(xué)習(xí)類仿生計(jì)算類公式發(fā)現(xiàn)類統(tǒng)計(jì)分析類模糊數(shù)學(xué)類可視化技術(shù)類數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類4.按挖掘方法和技術(shù)分類數(shù)據(jù)挖掘62數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗(yàn)證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL生成器查詢工具OLAP描述預(yù)測可視化聚類關(guān)聯(lián)規(guī)則順序關(guān)聯(lián)匯總描述分類統(tǒng)計(jì)回歸時間序列決策樹神經(jīng)網(wǎng)路數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗(yàn)證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL63七、數(shù)據(jù)挖掘模型為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐洲委員會聯(lián)合一些數(shù)據(jù)挖掘軟件廠商開發(fā)了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把數(shù)據(jù)挖掘的過程標(biāo)準(zhǔn)化,使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更容易管理。CRISP-DM模型最先在1996年被提出,當(dāng)前的白皮書版本是1.0。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐64CRISP-DM(CrossIndustryStandardProcessforDataMining)模型數(shù)據(jù)挖掘CRISP-DM(CrossIndustryStanda65七、數(shù)據(jù)挖掘模型CRISP-DM模型中,數(shù)據(jù)挖掘包括六個步驟:1.業(yè)務(wù)理解(BusinessUnderstanding)階段具體地,包括:確定業(yè)務(wù)目標(biāo)項(xiàng)目可行性分析確定數(shù)據(jù)挖掘目標(biāo)提出初步的項(xiàng)目計(jì)劃數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型CRISP-DM模型中,數(shù)據(jù)挖掘包括六個步驟66七、數(shù)據(jù)挖掘模型確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析項(xiàng)目的目標(biāo)和需求,確定業(yè)務(wù)角度的成功標(biāo)準(zhǔn);項(xiàng)目可行性分析:分析擁有的資源,條件和限制,風(fēng)險估計(jì),成本和效益估計(jì);確定數(shù)據(jù)挖掘目標(biāo):明確確定數(shù)據(jù)挖掘的目標(biāo)和成功標(biāo)準(zhǔn),數(shù)據(jù)挖掘的目標(biāo)和業(yè)務(wù)目標(biāo)是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等;提出項(xiàng)目計(jì)劃:對整個項(xiàng)目做一個計(jì)劃,初步估計(jì)用到的工具和技術(shù)。
數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析67七、數(shù)據(jù)挖掘模型2.?dāng)?shù)據(jù)理解(DataUnderstanding)階段具體地,包括:收集原始數(shù)據(jù):收集本項(xiàng)目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應(yīng)報(bào)告;描述數(shù)據(jù):對數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報(bào)告;探索數(shù)據(jù):對數(shù)據(jù)做簡單的統(tǒng)計(jì)分析,例如關(guān)鍵屬性的分布等;檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯、是否有缺失值等問題。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型2.?dāng)?shù)據(jù)理解(DataUnderstan68七、數(shù)據(jù)挖掘模型3.?dāng)?shù)據(jù)準(zhǔn)備(DataPreparation)階段具體地,包括:數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇;數(shù)據(jù)清潔:提高選擇好的數(shù)據(jù)的質(zhì)量,例如去除噪音,估計(jì)缺失值等;數(shù)據(jù)創(chuàng)建:在原有數(shù)據(jù)的基礎(chǔ)上是生成新的屬性或記錄;數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型3.?dāng)?shù)據(jù)準(zhǔn)備(DataPreparatio69七、數(shù)據(jù)挖掘模型數(shù)據(jù)合并:利用表連接等方式將幾個數(shù)據(jù)集合并在一起;數(shù)據(jù)格式化:把數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘處理的格式。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型數(shù)據(jù)合并:利用表連接等方式將幾個數(shù)據(jù)集合并在70七、數(shù)據(jù)挖掘模型4.建立模型(Modeling)階段
具體地,包括:選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會利用多個算法;測試方案設(shè)計(jì):設(shè)計(jì)某種測試模型的質(zhì)量和有效性的機(jī)制;模型訓(xùn)練:在準(zhǔn)備好的數(shù)據(jù)集上運(yùn)行數(shù)據(jù)挖掘算法,得出一個或者多個模型;模型測試評估:根據(jù)測試方案進(jìn)行測試,從數(shù)據(jù)挖掘技術(shù)的角度確定數(shù)據(jù)挖掘目標(biāo)是否成功。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型4.建立模型(Modeling)階段數(shù)據(jù)挖71七、數(shù)據(jù)挖掘模型5.模型評估(Evaluation)階段具體地,包括:
結(jié)果評估:從商業(yè)角度評估得到的模型,甚至實(shí)際試用該模型測試其效果;過程回顧:回顧項(xiàng)目的所有流程,確定每一個階段都沒有失誤;確定下一步工作:根據(jù)結(jié)果評估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個階段開始重新開始。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型5.模型評估(Evaluation)階段數(shù)72七、數(shù)據(jù)挖掘模型6.部署(Deployment)階段具體地,包括:
部署計(jì)劃:對在業(yè)務(wù)運(yùn)作中部署模型作出計(jì)劃;監(jiān)控和維護(hù)計(jì)劃:如何監(jiān)控模型在實(shí)際業(yè)務(wù)中的使用情況,如何維護(hù)該模型;作出最終報(bào)告:項(xiàng)目總結(jié),項(xiàng)目經(jīng)驗(yàn)和項(xiàng)目結(jié)果;項(xiàng)目回顧:回顧項(xiàng)目的實(shí)施過程,總結(jié)經(jīng)驗(yàn)教訓(xùn);對數(shù)據(jù)挖掘的運(yùn)行效果做一個預(yù)測。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型6.部署(Deployment)階段數(shù)據(jù)挖73七、數(shù)據(jù)挖掘模型為保證項(xiàng)目的可靠性和可管理性,CRISP-DM規(guī)定一個數(shù)據(jù)挖掘項(xiàng)目應(yīng)該產(chǎn)生11個報(bào)告:
業(yè)務(wù)理解報(bào)告原始數(shù)據(jù)收集報(bào)告數(shù)據(jù)描述報(bào)告數(shù)據(jù)探索報(bào)告數(shù)據(jù)質(zhì)量報(bào)告數(shù)據(jù)集描述報(bào)告模型訓(xùn)練報(bào)告模型評估報(bào)告部署計(jì)劃監(jiān)控和維護(hù)計(jì)劃總結(jié)報(bào)告通過這些報(bào)告,可以有效地控制數(shù)據(jù)挖掘項(xiàng)目進(jìn)程,減少開發(fā)風(fēng)險。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型為保證項(xiàng)目的可靠性和可管理性,CRISP-D74八、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個反復(fù)迭代的人機(jī)交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供。
從宏觀上看,數(shù)據(jù)挖掘過程主要由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。數(shù)據(jù)挖掘八、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個反復(fù)迭代的人機(jī)交互處理過程。該75八、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘八、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘76八、數(shù)據(jù)挖掘過程1.確定主題在理解數(shù)據(jù)和實(shí)際業(yè)務(wù)問題的基礎(chǔ)上,提出數(shù)據(jù)挖掘要解決的問題,定義挖掘的目標(biāo),確定挖掘要發(fā)現(xiàn)的知識類型。2.?dāng)?shù)據(jù)篩選搜索與業(yè)務(wù)數(shù)據(jù)有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,從中選擇出適用于挖掘主題的目標(biāo)數(shù)據(jù)集。3.?dāng)?shù)據(jù)清洗來源于業(yè)務(wù)數(shù)據(jù)庫的目標(biāo)數(shù)據(jù)集中可能存在噪聲數(shù)據(jù)、空缺數(shù)據(jù)、過時數(shù)據(jù)、冗余數(shù)據(jù)等,為提高挖掘質(zhì)量,需要合理處理噪聲數(shù)據(jù)、刪除過時數(shù)據(jù)和冗余數(shù)據(jù)、填補(bǔ)空缺數(shù)據(jù)等清洗操作。數(shù)據(jù)挖掘八、數(shù)據(jù)挖掘過程1.確定主題數(shù)據(jù)挖掘77八、數(shù)據(jù)挖掘過程4.?dāng)?shù)據(jù)變換選擇的目標(biāo)數(shù)據(jù)可能來源于不同的業(yè)務(wù)數(shù)據(jù)庫,可能會存在數(shù)據(jù)格式、數(shù)據(jù)類型不一致等問題。因此有必要對目標(biāo)數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)變換。5.選擇算法根據(jù)以下兩個因素選擇合適的算法:一是要根據(jù)數(shù)據(jù)的特點(diǎn),二是要根據(jù)用戶的目標(biāo)。選擇合適的知識發(fā)現(xiàn)算法還要包括選擇適當(dāng)?shù)哪P秃蛥?shù)。數(shù)據(jù)挖掘八、數(shù)據(jù)挖掘過程4.?dāng)?shù)據(jù)變換數(shù)據(jù)挖掘78八、數(shù)據(jù)挖掘過程6.?dāng)?shù)據(jù)挖掘運(yùn)用選擇的算法從清洗過的目標(biāo)數(shù)據(jù)集中提取出用戶感興趣的知識(模式),并以一定的方式表示出來。7.模式解釋剔除冗余或無關(guān)的模式。如果模式不能滿足用戶的要求,就要分析問題的原因并返回到前面的某些處理步驟中反復(fù)提取。如果是目標(biāo)數(shù)據(jù)選擇不充分,則重新選取數(shù)據(jù)如果是數(shù)據(jù)變換方法不當(dāng),則返回采用新的數(shù)據(jù)變換方法重新進(jìn)行數(shù)據(jù)變換如果是挖掘算法法中的參數(shù)值選擇不合適,則修改參數(shù)值,甚至換另外一種挖掘算法,從而提取出更有效的模式。數(shù)據(jù)挖掘八、數(shù)據(jù)挖掘過程6.?dāng)?shù)據(jù)挖掘數(shù)據(jù)挖掘79八、數(shù)據(jù)挖掘過程8.知識評價將發(fā)現(xiàn)的知識以用戶便于理解的方式呈現(xiàn)給用戶。這期間也包含對知識一致性的檢查,以確信本次發(fā)現(xiàn)的知識不會與以前發(fā)現(xiàn)的知識相抵觸。9.知識展示在知識發(fā)現(xiàn)過程中還包括對挖掘出的模式進(jìn)行可視化處理等。數(shù)據(jù)挖掘八、數(shù)據(jù)挖掘過程8.知識評價數(shù)據(jù)挖掘80數(shù)據(jù)倉庫數(shù)據(jù)清洗和集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評價圖形用戶接口知識庫數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)挖掘數(shù)據(jù)倉庫數(shù)據(jù)清洗和集成過濾數(shù)據(jù)庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖81數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:這是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫。可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)清理和集成。數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。知識庫:這是領(lǐng)域知識,用于指導(dǎo)搜索,或評估結(jié)果模式的興趣度。數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)挖掘數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫:這是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫82數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成,用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析。模式評估模塊:使用興趣度度量,并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上。圖形用戶界面:在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,指定數(shù)據(jù)挖掘具體任務(wù)。數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)數(shù)據(jù)挖掘數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)基本的部分,由一組功能模塊組成83本章小結(jié)數(shù)據(jù)挖掘是一種解決“數(shù)據(jù)爆炸但知識貧乏”困境的技術(shù),旨在從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。數(shù)據(jù)挖掘是一類深層次的數(shù)據(jù)分析方法。它與傳統(tǒng)的數(shù)據(jù)分析以及聯(lián)機(jī)分析處理有本質(zhì)的不同。數(shù)據(jù)挖掘采用信息論、集合論、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊數(shù)學(xué)等方法發(fā)現(xiàn)隱藏在數(shù)據(jù)中概念、關(guān)聯(lián)、分類預(yù)測和偏差等類型的知識。數(shù)據(jù)挖掘所發(fā)現(xiàn)知識的質(zhì)量與數(shù)據(jù)的質(zhì)量密切相關(guān),數(shù)據(jù)挖掘過程中。原始數(shù)據(jù)的預(yù)處理是工作量最大的一項(xiàng)任務(wù)。數(shù)據(jù)挖掘本章小結(jié)數(shù)據(jù)挖掘是一種解決“數(shù)據(jù)爆炸但知識貧乏”困境的技術(shù),84數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)O家澤sunjiaze@數(shù)據(jù)挖掘數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)挖掘85關(guān)于本課程數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、模式發(fā)現(xiàn)、可視化技術(shù)、信息檢索等多個學(xué)科領(lǐng)域的知識。本課程系統(tǒng)地介紹了數(shù)據(jù)挖掘的概念、理論及其發(fā)展、重點(diǎn)介紹了數(shù)據(jù)挖掘技術(shù)及其在實(shí)踐中的應(yīng)用。數(shù)據(jù)挖掘關(guān)于本課程數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析86課程目標(biāo)通過本課程的學(xué)習(xí),掌握數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘過程、數(shù)據(jù)倉庫的概念、OLAP與數(shù)據(jù)挖掘的關(guān)系。掌握數(shù)據(jù)挖掘的常用技術(shù):決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析、統(tǒng)計(jì)學(xué)習(xí)等。熟悉數(shù)據(jù)挖掘技術(shù)在典型行業(yè)的應(yīng)用方法,具有運(yùn)用數(shù)據(jù)挖掘技術(shù)解決問題的能力。數(shù)據(jù)挖掘課程目標(biāo)通過本課程的學(xué)習(xí),掌握數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)挖掘過87課程體系數(shù)據(jù)挖掘概述數(shù)據(jù)倉庫與OLAP技術(shù)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘?qū)嵗龜?shù)據(jù)挖掘課程體系數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘88學(xué)習(xí)方法課堂講授及自學(xué)理解數(shù)據(jù)挖掘的基本概念和原理。充分利用因特網(wǎng),查閱相關(guān)資料進(jìn)一步拓展知識面熟悉常用的數(shù)據(jù)挖掘軟件,提高數(shù)據(jù)挖掘的基本處理能力和動手能力。數(shù)據(jù)挖掘?qū)W習(xí)方法課堂講授及自學(xué)數(shù)據(jù)挖掘89成績考核考試成績由平時考勤+課堂討論+大作業(yè)數(shù)據(jù)挖掘成績考核考試成績由平時考勤+課堂討論+大作業(yè)數(shù)據(jù)挖掘90參考資料韓家煒,《數(shù)據(jù)挖掘:概念與技術(shù)(第二版)》,中文版,機(jī)械工業(yè)出版社王欣等,《SQLServer2005數(shù)據(jù)挖掘?qū)嵗治觥罚袊姵霭嫔鐢?shù)據(jù)挖掘.實(shí)用機(jī)器學(xué)習(xí)工具和技術(shù)WEKA手冊
/dataminingcourse/teaching.asp數(shù)據(jù)挖掘參考資料韓家煒,《數(shù)據(jù)挖掘:概念與技術(shù)(第二版)》,中文版,91參考網(wǎng)站
數(shù)據(jù)挖掘參考網(wǎng)站www.92需要使用的部分軟件SPSSWEKASQLServer2005標(biāo)準(zhǔn)版Excel數(shù)據(jù)挖掘需要使用的部分軟件SPSS數(shù)據(jù)挖掘93第1章
數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘第1章
數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘94數(shù)據(jù)挖掘數(shù)據(jù)挖掘95啤酒與尿布數(shù)據(jù)挖掘啤酒與尿布數(shù)據(jù)挖掘96引例:啤酒與尿布沃爾瑪超市建立數(shù)據(jù)倉庫,按周期統(tǒng)計(jì)產(chǎn)品的銷售信息,經(jīng)過科學(xué)建模后提煉決策層數(shù)據(jù)。發(fā)現(xiàn)每逢周末,位于某地區(qū)的沃爾瑪超市連鎖店的啤酒和尿布的銷售量很大,而且單張發(fā)票中同時購買尿布和啤酒的記錄非常普遍。分析人員認(rèn)為這并非偶然,經(jīng)過深入分析得知,通常周末購買尿布的是男士,他們在完成了太太交給的任務(wù)后,經(jīng)常會順便買一些啤酒。得出這樣的結(jié)果后,沃爾瑪超市的工作人員嘗試著將啤酒和尿布擺放在一起銷售,結(jié)果尿布與啤酒的銷售額雙雙增長。
從上面的例子不難看出,數(shù)據(jù)管理的主要目的是獲取信息和分析信息以指導(dǎo)我們的行動或幫助我們作決策。數(shù)據(jù)挖掘引例:啤酒與尿布沃爾瑪超市建立數(shù)據(jù)倉庫,按周期統(tǒng)計(jì)產(chǎn)品的銷97引言從大量數(shù)據(jù)中提取出隱藏在其中的有用信息數(shù)據(jù)挖掘,也可以稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoverDatabase,KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘引言從大量數(shù)據(jù)中提取出隱藏在其中的有用信息數(shù)據(jù)挖掘98本章內(nèi)容一、數(shù)據(jù)挖掘技術(shù)的由來二、數(shù)據(jù)挖掘的定義三、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型四、數(shù)據(jù)挖掘?qū)ο笪濉?shù)據(jù)挖掘任務(wù)六、數(shù)據(jù)挖掘分類七、數(shù)據(jù)挖掘模型八、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘本章內(nèi)容一、數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘99數(shù)據(jù)挖掘數(shù)據(jù)挖掘100一、數(shù)據(jù)挖掘技術(shù)的由來信息爆炸但知識貧乏《紐約時報(bào)》一周報(bào)道的信息總量,比十八世紀(jì)一個人一生接觸的信息總量還多“我們正在被信息所淹沒,但我們卻由于缺乏知識而感到饑餓。”數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來信息爆炸但知識貧乏數(shù)據(jù)挖掘101一、數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時提出的。它是一個新興的,面向商業(yè)應(yīng)用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術(shù)語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識表示、知識運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個步驟,其后逐漸演變成KDD的同義詞。數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗102一、數(shù)據(jù)挖掘技術(shù)的由來現(xiàn)在,人們往往不加區(qū)別地使用兩者。KDD常常被稱為數(shù)據(jù)挖掘(DataMining),實(shí)際兩者是有區(qū)別的。一般將KDD中進(jìn)行知識學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘(DataMining),數(shù)據(jù)挖掘是KDD中一個非常重要的處理步驟。數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理(CustomerRelationshipManagement,CRM)、商業(yè)智能(BusinessIntelligence,BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來現(xiàn)在,人們往往不加區(qū)別地使用兩者。KD103一、數(shù)據(jù)挖掘技術(shù)的由來支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)海量數(shù)據(jù)搜索強(qiáng)大的多處理器計(jì)算機(jī)數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘一、數(shù)據(jù)挖掘技術(shù)的由來支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ)數(shù)據(jù)挖掘104二、數(shù)據(jù)挖掘的定義技術(shù)角度的定義數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。該定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識,僅支持特定的發(fā)現(xiàn)問題。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義技術(shù)角度的定義數(shù)據(jù)挖掘105二、數(shù)據(jù)挖掘的定義關(guān)于知識的解釋從廣義上理解,數(shù)據(jù)、信息也是知識的表現(xiàn)形式,但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。這里所說的知識發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。實(shí)際上,所有發(fā)現(xiàn)的知識都是相對的,是有特定前提和約束條件,面向特定領(lǐng)域的,同時還要能夠易于被用戶理解。最好能用自然語言表達(dá)所發(fā)現(xiàn)的結(jié)果。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義關(guān)于知識的解釋數(shù)據(jù)挖掘106二、數(shù)據(jù)挖掘的定義模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是對數(shù)據(jù)所包含的信息更抽象的描述。模式按功能可以分為預(yù)測型模式和描述型模式。在實(shí)際應(yīng)用中,可以細(xì)分為關(guān)聯(lián)模式、分類模式、聚類模式和序列模式等。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義模式:它給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系,是107二、數(shù)據(jù)挖掘的定義“從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如:數(shù)據(jù)挖掘(datamining)知識提取(knowledgeextraction)信息發(fā)現(xiàn)(informationdiscovery)信息收獲(informationharvesting)數(shù)據(jù)考古(dataarchaeology)數(shù)據(jù)模式處理(datapatternprocessing)“數(shù)據(jù)挖掘”的稱法大部分是由統(tǒng)計(jì)學(xué)家,數(shù)據(jù)分析學(xué)家和MIS團(tuán)體使用的,在數(shù)據(jù)庫領(lǐng)域也得到了廣泛接受。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義“從數(shù)據(jù)中發(fā)現(xiàn)有用模式”歷來有很多稱法,如108二、數(shù)據(jù)挖掘的定義商業(yè)角度的含義數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘?qū)τ谄髽I(yè)的價值簡言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。因此,數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證己知的規(guī)律性,并進(jìn)一步將其模型化的有效方法。數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義商業(yè)角度的含義數(shù)據(jù)挖掘109二、數(shù)據(jù)挖掘的定義從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點(diǎn)數(shù)據(jù)搜集(20世紀(jì)60年代)“過去五年中我的總收入是多少?”計(jì)算機(jī)、磁帶和磁盤IBM,CDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問(20世紀(jì)80年代)“在新英格蘭的分部去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫,結(jié)構(gòu)化查詢語言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫、決策支持(20世紀(jì)90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理(OLAP)、多維數(shù)據(jù)庫、數(shù)據(jù)倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計(jì)算機(jī)、海量數(shù)據(jù)庫Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘二、數(shù)據(jù)挖掘的定義從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化進(jìn)化階段商業(yè)問110數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、可視化、信息檢索和高性能計(jì)算等諸多領(lǐng)域。此外,還與神經(jīng)網(wǎng)絡(luò)、模式識別、空間數(shù)據(jù)分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領(lǐng)域關(guān)系密切。數(shù)據(jù)挖掘數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘作為一門新興的交叉學(xué)科,涉及111數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘受多學(xué)科的影響
數(shù)據(jù)挖掘數(shù)據(jù)挖掘與其他科學(xué)的關(guān)系數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘112數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是:在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知,有效和可用三個特征。(傳統(tǒng)是假設(shè)驅(qū)動、數(shù)據(jù)挖掘是發(fā)現(xiàn)驅(qū)動)數(shù)據(jù)挖掘數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)分析數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表113數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)倉庫和數(shù)據(jù)集市是數(shù)據(jù)挖掘的一種數(shù)據(jù)源數(shù)據(jù)挖掘是數(shù)據(jù)倉庫的一個應(yīng)用對于數(shù)據(jù)挖掘,數(shù)據(jù)倉庫不是必需的。數(shù)據(jù)挖掘數(shù)據(jù)挖掘和數(shù)據(jù)倉庫數(shù)據(jù)倉庫和數(shù)據(jù)集市是數(shù)據(jù)挖掘的一種數(shù)據(jù)114數(shù)據(jù)挖掘和在線分析處理(OLAP)OLAP分析是建立一系列的假設(shè),然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個演繹推理的過程。數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個歸納的過程。數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。數(shù)據(jù)挖掘數(shù)據(jù)挖掘和在線分析處理(OLAP)OLAP分析是建立一系列115數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來的好處。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題數(shù)據(jù)挖掘數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)116數(shù)據(jù)挖掘的本質(zhì)一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已有多年的歷史,只不過在過去數(shù)據(jù)收集和分析的一般目的是用于科學(xué)研究;另外,由于當(dāng)時計(jì)算能力的限制,很難實(shí)現(xiàn)大量數(shù)據(jù)的復(fù)雜分析。現(xiàn)在,由于各行業(yè)業(yè)務(wù)自動化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)并不是為了分析的目的而收集的,而是在商業(yè)運(yùn)作過程中由于業(yè)務(wù)需要而自然產(chǎn)生的。數(shù)據(jù)挖掘數(shù)據(jù)挖掘的本質(zhì)一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘117實(shí)施數(shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提供真正有價值的信息,進(jìn)而獲得利潤。所有企業(yè)面臨的一個共同問題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少,因此需要從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競爭力的信息,就像從礦石中淘金一樣,數(shù)據(jù)挖掘也由此而得名。數(shù)據(jù)挖掘?qū)嵤?shù)據(jù)挖掘的目的不再是單純?yōu)榱搜芯浚饕氖菫樯虡I(yè)決策提118三、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型廣義知識關(guān)聯(lián)知識分類知識預(yù)測知識偏差知識。數(shù)據(jù)挖掘三、數(shù)據(jù)挖掘發(fā)現(xiàn)的知識類型廣義知識數(shù)據(jù)挖掘119廣義知識廣義知識指類別特征的概括性描述知識。根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,反映同類事物共同性質(zhì)。廣義知識就是對大量數(shù)據(jù)的歸納、概括,提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)知識。描述統(tǒng)計(jì)是數(shù)據(jù)挖掘最基本的應(yīng)用之一,經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。如當(dāng)月公司利潤總額、比較不同區(qū)域的銷售量等。廣義知識的發(fā)現(xiàn)方法和實(shí)現(xiàn)技術(shù)有很多,如概念描述、多維數(shù)據(jù)分析、面向?qū)傩缘臍w約、概念分層等。數(shù)據(jù)挖掘廣義知識廣義知識指類別特征的概括性描述知識。數(shù)據(jù)挖掘120關(guān)聯(lián)知識數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)知識可分為簡單關(guān)聯(lián)規(guī)則、多層關(guān)聯(lián)規(guī)則、多維關(guān)聯(lián)規(guī)則、量化關(guān)聯(lián)規(guī)則和基于約束的關(guān)聯(lián)規(guī)則。典型例子是購物籃分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法主要有Apriori算法和頻繁模式樹(FP-樹)數(shù)據(jù)挖掘關(guān)聯(lián)知識數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。121案例:某超市的數(shù)據(jù)挖掘應(yīng)用美國的超市有這樣的系統(tǒng):當(dāng)你采購了一車商品結(jié)賬時,售貨員小姐掃描完了你的產(chǎn)品后,計(jì)算機(jī)上會顯示出一些信息,然后售貨員會友好地問你:我們有一種一次性紙杯正在促銷,位于F6貨架上,您要購買嗎?這句話決不是一般的促銷。因?yàn)橛?jì)算機(jī)系統(tǒng)早就算好了,如果你的購物車中有餐巾紙、大瓶可樂和沙拉,則86%的可能性你要買一次性紙杯。結(jié)果是,你說,啊,謝謝你,我剛才一直沒找到紙杯。這不是什么神奇的科學(xué)算命,而是利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的系統(tǒng)。數(shù)據(jù)挖掘案例:某超市的數(shù)據(jù)挖掘應(yīng)用美國的超市有這樣的系統(tǒng):當(dāng)你采122分類知識分類知識是反映同類事物共同性的特征型知識和不同事物之間的差異型特征知識。典型應(yīng)用:客戶細(xì)分。例如,銀行根據(jù)客戶的存款額、信用額和消費(fèi)金額把客戶分成不同的類別,分別辦理不同類型的銀行卡。算法有決策樹分類、貝葉斯分類、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法等。數(shù)據(jù)挖掘分類知識分類知識是反映同類事物共同性的特征型知識和不同事物123預(yù)測知識預(yù)測型知識指的是預(yù)測連續(xù)值,是根據(jù)時間序列型數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)去推測未來的數(shù)據(jù),也可以認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識。一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘從過去有關(guān)促銷的數(shù)據(jù)中尋找在未來投資中回報(bào)最大的用戶,其它可預(yù)測的問題包括預(yù)報(bào)破產(chǎn)以及認(rèn)定對指定事件最可能做出反應(yīng)的群體。基于統(tǒng)計(jì)學(xué)習(xí)的回歸分析法,還有基于現(xiàn)代智能計(jì)算的神經(jīng)網(wǎng)絡(luò)、遺傳算法等各類時間序列分析法。數(shù)據(jù)挖掘預(yù)測知識預(yù)測型知識指的是預(yù)測連續(xù)值,是根據(jù)時間序列型數(shù)據(jù),124偏差知識偏差型知識是對差異和極端特例的描述,揭示事物偏離常規(guī)的異常現(xiàn)象。偏差即異常,在數(shù)據(jù)挖掘中有時也稱之為“孤立點(diǎn)”,可以用來發(fā)現(xiàn)“小的模式”偏差知識挖掘的一個典型應(yīng)用是檢測信用卡欺詐。基于統(tǒng)計(jì)的方法、基于距離的方法和基于偏離的方法數(shù)據(jù)挖掘偏差知識偏差型知識是對差異和極端特例的描述,揭示事物偏離常125案例:國內(nèi)某電信公司利用數(shù)據(jù)挖掘預(yù)測客戶知識2004年,某電信公司邀請國際某著名咨詢公司進(jìn)行市場營銷再造項(xiàng)目,將數(shù)據(jù)挖掘用于它的三個業(yè)務(wù)領(lǐng)域:客戶管理、網(wǎng)絡(luò)/產(chǎn)品/服務(wù)管理、市場/財(cái)務(wù)管理;公司將數(shù)據(jù)挖掘的重點(diǎn)放在了客戶管理。在電信市場競爭越來越激烈的今天,即使在擴(kuò)大其客戶群的時候,電信運(yùn)營商和其它代理商也必須密切監(jiān)視他們的現(xiàn)有客戶,并采用各種營銷方法來留住這些客戶。電信公司期望通過數(shù)據(jù)倉庫的實(shí)施和數(shù)據(jù)挖掘的應(yīng)用,能夠利用經(jīng)營分析系統(tǒng)進(jìn)行客戶分群、客戶獲取、客戶行為分析、客戶流失分析等。如今,電信公司已經(jīng)能夠利用現(xiàn)有的客戶數(shù)據(jù)來總結(jié)客戶行為的特點(diǎn),并預(yù)測客戶的下一步行為。例如,為了對付日益嚴(yán)重的客戶流失或業(yè)務(wù)流失狀況,電信公司采用基于決策樹的方法來分析客戶的流失特性,以便采取針對性的營銷措施,挽留有價值的客戶、減少客戶流失。數(shù)據(jù)挖掘案例:國內(nèi)某電信公司利用數(shù)據(jù)挖掘預(yù)測客戶知識2004年,某126四、數(shù)據(jù)挖掘?qū)ο?.關(guān)系數(shù)據(jù)庫數(shù)據(jù)庫中數(shù)據(jù)的特點(diǎn)如下:1)數(shù)據(jù)動態(tài)性、2)數(shù)據(jù)的不完全性、3)噪聲數(shù)據(jù)、4)數(shù)據(jù)類型不一致、5)異構(gòu)性、6)數(shù)據(jù)冗余性、7)數(shù)據(jù)稀疏性由于數(shù)據(jù)庫中的數(shù)據(jù)具有以上特點(diǎn),使其在挖掘過程中難以直接使用,因此在進(jìn)行數(shù)據(jù)挖掘以前必須對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.關(guān)系數(shù)據(jù)庫數(shù)據(jù)挖掘127四、數(shù)據(jù)挖掘?qū)ο?.數(shù)據(jù)倉庫數(shù)據(jù)倉庫的特點(diǎn)如下:
1)面向主題、2)集成的數(shù)據(jù)、3)不可更新、4)隨時間不斷變化高質(zhì)量的挖掘結(jié)果依賴于高質(zhì)量的數(shù)據(jù),數(shù)據(jù)倉庫為數(shù)據(jù)挖掘準(zhǔn)備了良好的數(shù)據(jù)源,因此,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的最佳環(huán)境。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.數(shù)據(jù)倉庫數(shù)據(jù)挖掘128四、數(shù)據(jù)挖掘?qū)ο?.文本文本是非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。文本分析包括:1)關(guān)鍵詞或特征提取2)相似檢索3)文本聚類4)文本分類數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.文本數(shù)據(jù)挖掘129四、數(shù)據(jù)挖掘?qū)ο?.多媒體數(shù)據(jù)圖像、音頻、視頻數(shù)據(jù)是典型的多媒體數(shù)據(jù)。多媒體數(shù)據(jù)廣泛存在于生活、醫(yī)學(xué)、軍事、娛樂等領(lǐng)域,目前,對于多媒體數(shù)據(jù)的挖掘主要有特征提取、基于內(nèi)容的相似檢索等。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.多媒體數(shù)據(jù)數(shù)據(jù)挖掘130四、數(shù)據(jù)挖掘?qū)ο?.Web數(shù)據(jù)Web使用模式挖掘:在Web環(huán)境中,文檔和對象一般都是通過鏈接來便于用戶訪問。捕捉用戶的存取模式或發(fā)現(xiàn)一個Web網(wǎng)站最頻繁的訪問路徑稱為Web使用模式挖掘或Web路徑挖掘。Web結(jié)構(gòu)挖掘:是挖掘Web的鏈接結(jié)構(gòu),并找出關(guān)于某一主題的權(quán)威網(wǎng)站。Web內(nèi)容挖掘:是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象之間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息篩選,從而獲得指定內(nèi)容的信息。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.Web數(shù)據(jù)數(shù)據(jù)挖掘131四、數(shù)據(jù)挖掘?qū)ο?.復(fù)雜類型的數(shù)據(jù)1)空間數(shù)據(jù)庫如地理信息數(shù)據(jù)、衛(wèi)星圖像數(shù)據(jù)、地下管道、下水道、及各類地下建筑分布數(shù)據(jù)等。對空間數(shù)據(jù)的挖掘可以為城市規(guī)劃、生態(tài)規(guī)劃、道路修建提供決策支持。2)時間序列數(shù)據(jù)主要用于存放與時間相關(guān)的數(shù)據(jù),它可用來反映隨時間變化的即時數(shù)據(jù)或不同時間發(fā)生的不同事件。例如,連續(xù)存放即時的股票交易信息、衛(wèi)星軌道信息等。對時間序列數(shù)據(jù)的挖掘可以發(fā)現(xiàn)事件的發(fā)展趨勢、演變過程和隱藏特征,這些信息對制定計(jì)劃、決策和預(yù)警是非常有用的。數(shù)據(jù)挖掘四、數(shù)據(jù)挖掘?qū)ο?.復(fù)雜類型的數(shù)據(jù)數(shù)據(jù)挖掘132五、數(shù)據(jù)挖掘任務(wù)概念描述關(guān)聯(lián)分析
分類與估值聚類孤立點(diǎn)分析時間序列分析預(yù)測數(shù)據(jù)挖掘五、數(shù)據(jù)挖掘任務(wù)概念描述數(shù)據(jù)挖掘133概念描述概念描述就是通過對某類數(shù)據(jù)對象進(jìn)行匯總、分析和比較,獲得對此類對象內(nèi)涵的描述,并概括這類對象的有關(guān)特征。概念描述可以通過下述方法得到:數(shù)據(jù)特征化和數(shù)據(jù)區(qū)分?jǐn)?shù)據(jù)特征化的輸出可以采用餅圖、柱狀圖、曲線、多維數(shù)據(jù)立方體、含交叉表的多維表等形式,描述結(jié)果也可以用概化關(guān)系或規(guī)則形式表示
數(shù)據(jù)區(qū)分的輸出類似于數(shù)據(jù)特征化,但它應(yīng)該包括比較度量,以幫助區(qū)分目標(biāo)類和比較類。數(shù)據(jù)挖掘概念描述概念描述就是通過對某類數(shù)據(jù)對象進(jìn)行匯總、分析和比較,134概念描述例1:我們收集移動電話費(fèi)月消費(fèi)額超出1000元的客戶資料,然后利用數(shù)據(jù)挖掘進(jìn)行分析,獲得這類客戶的總體性描述:35-50歲,有工作,月收入5000元以上,擁有良好的信用度…;例2:對比移動電話費(fèi)月消費(fèi)額超出1000元的客戶群與移動電話費(fèi)月消費(fèi)額低于100元的客戶群。利用數(shù)據(jù)挖掘可作出如下描述:移動電話月消費(fèi)額超出1000元的客戶80%以上年齡在35-50歲之間,且月收入5000元以上;而移動電話月消費(fèi)額低于100元的客戶60%以上要么年齡過大要么年齡過小,且月收入2000元以下。數(shù)據(jù)挖掘概念描述例1:我們收集移動電話費(fèi)月消費(fèi)額超出1000元的客戶135關(guān)聯(lián)分析關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、相關(guān)關(guān)系或因果結(jié)構(gòu),以及項(xiàng)集的頻繁模式。例如,購買計(jì)算機(jī)也趨向于同時購買財(cái)務(wù)管理軟件可以用以下關(guān)聯(lián)規(guī)則表示:[support=2%,confidence=60%]數(shù)據(jù)挖掘關(guān)聯(lián)分析關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的聯(lián)系、136分類與估值分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組模型,該模型可用以預(yù)測類別未知的數(shù)據(jù)項(xiàng)的類別。類的內(nèi)涵描述分為:特征描述和辨別性描述。特征描述是對類中對象的共同特征的描述。辨別性描述是對兩個或多個類之間區(qū)別的描述。分類過程分兩步:第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類或概念集。第二步,使用模型對未分類的對象進(jìn)行分類。分類挖掘主要技術(shù)有決策樹、貝葉斯學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法等。數(shù)據(jù)挖掘分類與估值分類指通過分析一個類別已知的數(shù)據(jù)集的特征來建立一組137分類與估值估值與分類類似,只不過它要預(yù)測的不是類別,而是一個連續(xù)的數(shù)值。數(shù)據(jù)挖掘分類與估值估值與分類類似,只不過它要預(yù)測的不是類別,而是一個138聚類聚類是根據(jù)類內(nèi)事物的相似性最大、類間事物的相似性最小的原則把數(shù)據(jù)對象進(jìn)行聚類或分組。聚類與分類不同,它們的區(qū)別如下:第一,分類需要訓(xùn)練數(shù)據(jù)集,屬于有監(jiān)督的學(xué)習(xí);而聚類不需要訓(xùn)練數(shù)據(jù)集,屬于無監(jiān)督的學(xué)習(xí)。第二,在進(jìn)行分類以前,已知道數(shù)據(jù)的分類情況;而進(jìn)行聚類以前,對目標(biāo)數(shù)據(jù)的分類情況一無所知。常用的聚類方法包括統(tǒng)計(jì)分析方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。數(shù)據(jù)挖掘聚類聚類是根據(jù)類內(nèi)事物的相似性最大、類間事物的相似性最小的原139孤立點(diǎn)分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與集合中其它數(shù)據(jù)的一般行為或模型不一致,這些數(shù)據(jù)對象稱為孤立點(diǎn)。孤立點(diǎn)可以使用統(tǒng)計(jì)試驗(yàn)檢測。它假定一個數(shù)據(jù)的分布或概率模型,并使用距離度量,到其它數(shù)據(jù)對象的距離很遠(yuǎn)的對象被視為孤立點(diǎn)。基于偏差的方法通過考察一群對象主要特征上的差別識別孤立點(diǎn),而不是使用統(tǒng)計(jì)或距離度量。孤立點(diǎn)分析通常可以作為聚類分析的副產(chǎn)品,根據(jù)聚類分析結(jié)果,含有對象個數(shù)少于設(shè)定閾值的聚類中的事物看作是孤立點(diǎn)。數(shù)據(jù)挖掘孤立點(diǎn)分析數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對象,它們與集合中其它數(shù)據(jù)140時間序列分析時間序列分析是描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。包括與時間相關(guān)數(shù)據(jù)的特征、區(qū)分、關(guān)聯(lián)、分類或聚類,根據(jù)分析的不同特點(diǎn)分為時間序列數(shù)據(jù)分析、序列或周期模式匹配和基于類似性的數(shù)據(jù)分析。如股票市場的每日波動、動態(tài)產(chǎn)品加工過程、科學(xué)實(shí)驗(yàn)、醫(yī)學(xué)治療等。數(shù)據(jù)挖掘時間序列分析時間序列分析是描述行為隨時間變化的對象的規(guī)律或趨141預(yù)測預(yù)測是從歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型預(yù)測未來數(shù)據(jù)種類、特征等。用分類預(yù)測離散數(shù)據(jù)用回歸分析預(yù)測連續(xù)數(shù)據(jù)。典型的回歸分析是利用大量的歷史數(shù)據(jù),建立線性或非線性回歸方程。根據(jù)回歸模型,只要輸入自變量的值,就可以求出因變量的值,達(dá)到對因變量的預(yù)測。數(shù)據(jù)挖掘預(yù)測預(yù)測是從歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型預(yù)測未142六、數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘143六、數(shù)據(jù)挖掘分類2.按數(shù)據(jù)挖掘?qū)ο蠓诸悓?shù)據(jù)庫進(jìn)行挖掘文本數(shù)據(jù)挖掘多媒體數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘。數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類2.按數(shù)據(jù)挖掘?qū)ο蠓诸悢?shù)據(jù)挖掘144六、數(shù)據(jù)挖掘分類3.根據(jù)挖掘的知識類型分類概念描述關(guān)聯(lián)分析分類預(yù)測聚類分析孤立點(diǎn)分析數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類3.根據(jù)挖掘的知識類型分類數(shù)據(jù)挖掘145六、數(shù)據(jù)挖掘分類4.按挖掘方法和技術(shù)分類歸納學(xué)習(xí)類仿生計(jì)算類公式發(fā)現(xiàn)類統(tǒng)計(jì)分析類模糊數(shù)學(xué)類可視化技術(shù)類數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘分類4.按挖掘方法和技術(shù)分類數(shù)據(jù)挖掘146數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗(yàn)證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL生成器查詢工具OLAP描述預(yù)測可視化聚類關(guān)聯(lián)規(guī)則順序關(guān)聯(lián)匯總描述分類統(tǒng)計(jì)回歸時間序列決策樹神經(jīng)網(wǎng)路數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)分類數(shù)據(jù)挖掘驗(yàn)證驅(qū)動挖掘發(fā)現(xiàn)驅(qū)動挖掘SQLSQL147七、數(shù)據(jù)挖掘模型為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐洲委員會聯(lián)合一些數(shù)據(jù)挖掘軟件廠商開發(fā)了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把數(shù)據(jù)挖掘的過程標(biāo)準(zhǔn)化,使數(shù)據(jù)挖掘項(xiàng)目的實(shí)施速度更快、成本更低、更可靠并且更容易管理。CRISP-DM模型最先在1996年被提出,當(dāng)前的白皮書版本是1.0。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型為了使數(shù)據(jù)挖掘技術(shù)在產(chǎn)業(yè)界得到更好的應(yīng)用,歐148CRISP-DM(CrossIndustryStandardProcessforDataMining)模型數(shù)據(jù)挖掘CRISP-DM(CrossIndustryStanda149七、數(shù)據(jù)挖掘模型CRISP-DM模型中,數(shù)據(jù)挖掘包括六個步驟:1.業(yè)務(wù)理解(BusinessUnderstanding)階段具體地,包括:確定業(yè)務(wù)目標(biāo)項(xiàng)目可行性分析確定數(shù)據(jù)挖掘目標(biāo)提出初步的項(xiàng)目計(jì)劃數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型CRISP-DM模型中,數(shù)據(jù)挖掘包括六個步驟150七、數(shù)據(jù)挖掘模型確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析項(xiàng)目的目標(biāo)和需求,確定業(yè)務(wù)角度的成功標(biāo)準(zhǔn);項(xiàng)目可行性分析:分析擁有的資源,條件和限制,風(fēng)險估計(jì),成本和效益估計(jì);確定數(shù)據(jù)挖掘目標(biāo):明確確定數(shù)據(jù)挖掘的目標(biāo)和成功標(biāo)準(zhǔn),數(shù)據(jù)挖掘的目標(biāo)和業(yè)務(wù)目標(biāo)是不一樣的,前者指技術(shù)上的,例如生成一棵決策樹等;提出項(xiàng)目計(jì)劃:對整個項(xiàng)目做一個計(jì)劃,初步估計(jì)用到的工具和技術(shù)。
數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型確定業(yè)務(wù)目標(biāo):分析項(xiàng)目的背景,從業(yè)務(wù)視點(diǎn)分析151七、數(shù)據(jù)挖掘模型2.?dāng)?shù)據(jù)理解(DataUnderstanding)階段具體地,包括:收集原始數(shù)據(jù):收集本項(xiàng)目所涉及到的數(shù)據(jù),如有必要,把數(shù)據(jù)裝入數(shù)據(jù)處理工具,并作一些初步的數(shù)據(jù)集成的工作,生成相應(yīng)報(bào)告;描述數(shù)據(jù):對數(shù)據(jù)做一些大致的描述,例如記錄數(shù)、屬性數(shù)等,給出相應(yīng)報(bào)告;探索數(shù)據(jù):對數(shù)據(jù)做簡單的統(tǒng)計(jì)分析,例如關(guān)鍵屬性的分布等;檢查數(shù)據(jù)質(zhì)量:包括數(shù)據(jù)是否完整、數(shù)據(jù)是否有錯、是否有缺失值等問題。數(shù)據(jù)挖掘七、數(shù)據(jù)挖掘模型2.?dāng)?shù)據(jù)理解(DataUnderstan152七、數(shù)據(jù)挖掘模型3.?dāng)?shù)據(jù)準(zhǔn)備(DataPreparation)階段具體地,包括:數(shù)據(jù)選擇:根據(jù)數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)質(zhì)量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家庭餐廳廚師勞動合同及衛(wèi)生標(biāo)準(zhǔn)
- 老年肺炎健康宣教
- 經(jīng)典文章閱讀指導(dǎo)課件
- 中學(xué)生心理健康教案
- 《咪咪的玩具》小班課件
- 《生產(chǎn)運(yùn)營管理》 課件 第9章-物料需求計(jì)劃
- 2022年度河南省新鄉(xiāng)市某中學(xué)高一歷史模擬試卷
- 2023國家義務(wù)教育質(zhì)量監(jiān)測工作實(shí)施方案5篇
- 健身房設(shè)備使用責(zé)任考核
- 藍(lán)色手繪風(fēng)口腔潰瘍的中醫(yī)診療策略
- 2025年高考真題-物理(廣東卷) 含答案
- 2025春季學(xué)期國開電大本科《管理英語3》一平臺機(jī)考真題及答案(第十套)
- 湖南省2025年高考公安院校公安專業(yè)考生檔案審核表
- 2025年四川省宜賓五糧液集團(tuán)進(jìn)出口有限公司招聘筆試參考題庫附帶答案詳解
- 定額〔2025〕1號文-關(guān)于發(fā)布2018版電力建設(shè)工程概預(yù)算定額2024年度價格水平調(diào)整的通知
- 寶興縣中藥材生產(chǎn)現(xiàn)狀及發(fā)展思路
- 臺州市幼兒園教師考核表.
- 小兒霧化吸入課件.ppt
- TM92成品鞋彎折測試
- 鎖骨骨折幻燈片
- 高填方、深挖路塹邊坡和軟基監(jiān)測方案
評論
0/150
提交評論