




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
原理及應(yīng)用東華理工大學(xué)理學(xué)院劉愛華數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
原理及應(yīng)用東華理工大學(xué)理學(xué)院1目錄數(shù)據(jù)倉庫基礎(chǔ)7.分類和預(yù)測
數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn)
8.關(guān)聯(lián)分析
數(shù)據(jù)倉庫實(shí)例
9.Web挖掘
OLAP和OLAM
10.數(shù)據(jù)挖掘?qū)嵗?/p>
5.數(shù)據(jù)挖掘基礎(chǔ)11.
知識(shí)
聚類分析12.語義網(wǎng)和本體
目錄數(shù)據(jù)倉庫基礎(chǔ)7.分21數(shù)據(jù)倉庫基礎(chǔ)1.1
引言1.2體系結(jié)構(gòu)1.3組成1.4元數(shù)據(jù)1.5數(shù)據(jù)粒度1.6數(shù)據(jù)模型1.7ETL1數(shù)據(jù)倉庫基礎(chǔ)1.1引言31.1引言數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。此定義由最為權(quán)威的、被稱為“數(shù)據(jù)倉庫之父”的WilliamH.Inmon先生給出。
1.1引言數(shù)據(jù)倉庫定義4面向主題的
是相對于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言的。所謂面向應(yīng)用,指的是系統(tǒng)實(shí)現(xiàn)過程中主要圍繞著一些應(yīng)用或功能。而面向主題則考慮一個(gè)個(gè)的問題域,對問題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。典型的主題領(lǐng)域
顧客、產(chǎn)品、事務(wù)或活動(dòng)、保險(xiǎn)單、索賠和賬目。1.1引言面向主題的1.1引言5集成的
數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個(gè)不同的數(shù)據(jù)源(操作數(shù)據(jù)庫)。由于歷史的原因,各操作數(shù)據(jù)庫的組織結(jié)構(gòu)往往是不同的,在這些異構(gòu)數(shù)據(jù)輸入到數(shù)據(jù)倉庫之前,必須經(jīng)歷一個(gè)集成過程。
1.1引言集成的1.1引言6集成的
最重要的特點(diǎn)。應(yīng)用問題的設(shè)計(jì)人員制定出不同的設(shè)計(jì)決策,且表示方法不同。例如編碼、命名習(xí)慣、實(shí)際屬性和屬性度量等方面不一致。數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時(shí),需要消除各種不一致性。例如,數(shù)據(jù)倉庫中顧客“性別”的編碼,可采用“男/女”或“m/f”,采用哪種方式并不重要,重要的是在數(shù)據(jù)倉庫中應(yīng)該統(tǒng)一編碼。如果應(yīng)用數(shù)據(jù)編碼為“X/Y”,則進(jìn)入數(shù)據(jù)倉庫時(shí)需要進(jìn)行轉(zhuǎn)換。此外,對所有應(yīng)用所涉及的問題都要考慮一致性。例如命名習(xí)慣、鍵碼結(jié)構(gòu)、屬性度量以及數(shù)據(jù)特點(diǎn)等。1.1引言集成的1.1引言7與時(shí)間相關(guān)的
數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進(jìn)行組織,時(shí)間維是數(shù)據(jù)倉庫中很重要的一個(gè)維度。并且數(shù)據(jù)倉庫中的數(shù)據(jù)時(shí)間跨度大,從幾年甚至到幾十年,稱為歷史數(shù)據(jù)。
1.1引言與時(shí)間相關(guān)的1.1引言8不可修改的
面向應(yīng)用的事務(wù)數(shù)據(jù)庫需要對數(shù)據(jù)進(jìn)行頻繁的插入、更新操作,而對于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和記錄查詢。操作型數(shù)據(jù)是一次訪問和處理一個(gè)記錄,可以對操作型數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行更新。但數(shù)據(jù)倉庫中的數(shù)據(jù)則不同,通常是一起載入與訪問的,在數(shù)據(jù)倉庫環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新。1.1引言不可修改的1.1引言91.2體系結(jié)構(gòu)二層體系結(jié)構(gòu)1.2體系結(jié)構(gòu)二層體系結(jié)構(gòu)101.2體系結(jié)構(gòu)三層體系結(jié)構(gòu)1.2體系結(jié)構(gòu)三層體系結(jié)構(gòu)111.3數(shù)據(jù)倉庫組成一個(gè)數(shù)據(jù)倉庫的大小一般都是在100GB以上通常,數(shù)據(jù)倉庫系統(tǒng)應(yīng)該包含下列程序:(1)抽取數(shù)據(jù)與加載數(shù)據(jù)(2)整理并轉(zhuǎn)換數(shù)據(jù)(采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式)(3)備份與備存數(shù)據(jù)(4)管理所有查詢(即將查詢導(dǎo)向適當(dāng)?shù)臄?shù)據(jù)源)1.3數(shù)據(jù)倉庫組成一個(gè)數(shù)據(jù)倉庫的大小一般都是在100GB121.3數(shù)據(jù)倉庫組成1.3數(shù)據(jù)倉庫組成131.4元數(shù)據(jù)
定義
元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫開發(fā)人員非常方便地找到他們所需的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫中數(shù)據(jù)結(jié)構(gòu)和構(gòu)建方法的數(shù)據(jù)。1.4元數(shù)據(jù)定義141.4元數(shù)據(jù)
分類
按照用途的不同分為技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)兩大類。-技術(shù)元數(shù)據(jù)存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它保證了數(shù)據(jù)倉庫系統(tǒng)的正常運(yùn)行;-業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),它提供介于使用者和實(shí)際系統(tǒng)之間的語義層,使得數(shù)據(jù)倉庫使用人員能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。1.4元數(shù)據(jù)分類151.5數(shù)據(jù)粒度定義粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小;相反,細(xì)化程度越低,粒度級(jí)就越大。粒度深深地影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)粒度與查詢的詳細(xì)程度之間要做出權(quán)衡。1.5數(shù)據(jù)粒度定義161.5數(shù)據(jù)粒度當(dāng)提高粒度級(jí)別時(shí),數(shù)據(jù)所能回答查詢的能力會(huì)隨之降低。換言之,在一個(gè)很低的粒度級(jí)別上,幾乎可以回答任何問題,但在高粒度級(jí)別上,數(shù)據(jù)所能處理的問題的數(shù)量是有限的。
1.5數(shù)據(jù)粒度當(dāng)提高粒度級(jí)別時(shí),數(shù)據(jù)所能回171.6數(shù)據(jù)模型數(shù)據(jù)模型是對現(xiàn)實(shí)世界的一種抽象,根據(jù)抽象程度的不同,可形成不同抽象層次上的數(shù)據(jù)模型。與數(shù)據(jù)庫的數(shù)據(jù)模型相類似,數(shù)據(jù)倉庫的數(shù)據(jù)模型也分為三個(gè)層次:
概念模型邏輯模型物理模型
1.6數(shù)據(jù)模型數(shù)據(jù)模型是對現(xiàn)實(shí)世界的一種抽象18數(shù)據(jù)倉庫的數(shù)據(jù)模型星型結(jié)構(gòu)雪花型結(jié)構(gòu)星型雪花型結(jié)構(gòu)數(shù)據(jù)倉庫的數(shù)據(jù)=事實(shí)數(shù)據(jù)+維度數(shù)據(jù)不論是星型、雪花型或者是星型雪花型結(jié)構(gòu)都是以事實(shí)表為中心。不同點(diǎn)只是在外圍維度表相互之間的關(guān)系不同而已。
1.6數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型1.6數(shù)據(jù)模型19將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫所在的中心存儲(chǔ)庫的過程稱為ETL(Extraction,TransformationandLoading)過程,制定這個(gè)過程的策略稱之為ETL策略,而完成ETL過程的工具則是ETL工具。相對于數(shù)據(jù)倉庫中的表而言,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的表稱為源表,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫稱為源數(shù)據(jù)庫,數(shù)據(jù)倉庫中所有的數(shù)據(jù)都來自于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫。在打造一個(gè)數(shù)據(jù)倉庫的過程中,ETL的實(shí)施是一項(xiàng)繁瑣、冗長而艱巨的任務(wù),因?yàn)樗P(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量問題,如果導(dǎo)入的數(shù)據(jù)漏洞百出,對決策者來說無疑是個(gè)噩耗。
ETL過程是搭建“數(shù)據(jù)倉庫”時(shí)最重要的和最易誤解的步驟之一。1.7ETL將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉20ETL過程不僅僅是數(shù)據(jù)的遷移(Migration)或凈化(Cleansing),也應(yīng)該是企業(yè)數(shù)據(jù)管理策略中不可缺少的一部分。ETL過程的功能是:發(fā)現(xiàn)數(shù)據(jù)倉庫需要的數(shù)據(jù),將其從源系統(tǒng)中抽取出來,并進(jìn)行一定的處理,然后裝載到數(shù)據(jù)倉庫中去。
1.7ETLETL過程不僅僅是數(shù)據(jù)的遷移(Migr21提高數(shù)據(jù)質(zhì)量提供一種統(tǒng)一的、跨平臺(tái)的存取數(shù)據(jù)方法將數(shù)據(jù)“信息化”,為企業(yè)決策者的經(jīng)營分析提供信息來源1.7ETL提高數(shù)據(jù)質(zhì)量1.7ETL222數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn)2.1
數(shù)據(jù)倉庫設(shè)計(jì)2.2ETL設(shè)計(jì)2.3數(shù)據(jù)倉庫實(shí)現(xiàn)2數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn)23(1)確定數(shù)據(jù)倉庫的主題根據(jù)電信業(yè)務(wù)和電信運(yùn)營的需求,電信公司涉及的最主要的三個(gè)主題是:
客戶發(fā)展收益分析呼叫特性分析
2.1數(shù)據(jù)倉庫設(shè)計(jì)(1)確定數(shù)據(jù)倉庫的主題2.1數(shù)據(jù)倉庫設(shè)計(jì)24(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——可用的數(shù)據(jù)例如,要完成客戶發(fā)展、收益分析、呼叫特性分析三個(gè)主題,下列三部分信息是必要的,即:客戶的基本信息表客戶的賬單信息表客戶的呼叫信息表2.1數(shù)據(jù)倉庫設(shè)計(jì)(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——可用的數(shù)據(jù)2.1數(shù)據(jù)倉庫設(shè)計(jì)25(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——粒度的確定在數(shù)據(jù)倉庫設(shè)計(jì)中,最重要的步驟是確定數(shù)據(jù)的粒度。單一粒度對于客戶基本信息表,由于它屬于增長較為緩慢的信息(隨著客戶數(shù)量的增長,客戶業(yè)務(wù)信息的變更表會(huì)增長),可以使用單一的數(shù)據(jù)粒度。
2.1數(shù)據(jù)倉庫設(shè)計(jì)(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——粒度的確定2.1數(shù)據(jù)倉庫設(shè)計(jì)26(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——OLAP模型的設(shè)計(jì)針對每一個(gè)主題確定其需要的維度和度量變量,然后為每一個(gè)主題定義關(guān)系模式,從而形成一個(gè)星型結(jié)構(gòu),在這個(gè)星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫。以客戶信息主題為例,客戶信息主題的維度設(shè)計(jì)書如下:
2.1數(shù)據(jù)倉庫設(shè)計(jì)(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——OLAP模型的設(shè)計(jì)2.1數(shù)27數(shù)據(jù)提取-轉(zhuǎn)換-加載隨著應(yīng)用和系統(tǒng)環(huán)境的不同而具有不同的特點(diǎn)。一般而言,總包括下面的處理過程:a.預(yù)處理正式開始作業(yè)之前的準(zhǔn)備工作,包括清空工作區(qū)、檢查過渡/準(zhǔn)備區(qū)。如果需要直接訪問操作型數(shù)據(jù)源系統(tǒng)時(shí),要檢查遠(yuǎn)程數(shù)據(jù)庫服務(wù)器狀態(tài),并核對目標(biāo)區(qū)數(shù)據(jù)加載狀態(tài),以核算出加載作業(yè)的參數(shù),如加載數(shù)據(jù)的時(shí)間間隔和范圍(24小時(shí)的數(shù)據(jù),還是前3天的數(shù)據(jù))。2.2ETL設(shè)計(jì)數(shù)據(jù)提取-轉(zhuǎn)換-加載隨著應(yīng)用和系統(tǒng)環(huán)28b.啟動(dòng)數(shù)據(jù)加載的批作業(yè)c.因?yàn)榫S度表有事實(shí)表所參照的主鍵,所以要先完成對維表的加載,生成維表主鍵,并作為以后加載事實(shí)表所需要的外鍵。在加載維表中,有時(shí)要處理好緩慢變化的維的問題,并可能涉及到版號(hào)的處理問題。2.2ETL設(shè)計(jì)2.2ETL設(shè)計(jì)29d.加載事實(shí)表這中間也涉及到鍵查找的問題,即從有關(guān)維表中找到相應(yīng)的主鍵,并以此作事實(shí)表的外鍵。e.事實(shí)表加載完成后,再對總計(jì)方陣體系進(jìn)行刷新,以保障總計(jì)方陣與它的基礎(chǔ)數(shù)據(jù)同步。f.設(shè)計(jì)具有完善的出錯(cuò)處理機(jī)制和作業(yè)控制日志系統(tǒng),用以監(jiān)測和協(xié)調(diào)整個(gè)加載的過程。
2.2ETL設(shè)計(jì)2.2ETL設(shè)計(jì)30加載數(shù)據(jù)到數(shù)據(jù)倉庫的具體步驟
設(shè)定數(shù)據(jù)庫和數(shù)據(jù)源建立多維數(shù)據(jù)集設(shè)計(jì)存儲(chǔ)和處理多維數(shù)據(jù)集為多維數(shù)據(jù)集創(chuàng)立分區(qū)2.3數(shù)據(jù)倉庫實(shí)現(xiàn)加載數(shù)據(jù)到數(shù)據(jù)倉庫的具體步驟2.3數(shù)據(jù)倉庫實(shí)現(xiàn)31企業(yè)級(jí)數(shù)據(jù)倉庫的實(shí)現(xiàn)途徑從建造某個(gè)部門特定的數(shù)據(jù)集市開始,逐步擴(kuò)充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個(gè)能夠完全反映企業(yè)全貌的企業(yè)級(jí)數(shù)據(jù)倉庫;從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實(shí)施。
2.3數(shù)據(jù)倉庫實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)倉庫的實(shí)現(xiàn)途徑2.3數(shù)據(jù)倉庫實(shí)現(xiàn)32第一種方法類似于軟件工程中“自底向上”的方法,投資少、周期短且易于見到成果,但由于該設(shè)計(jì)開始時(shí)是以特定的部門級(jí)主題為框架的,向其他的主題和部門擴(kuò)充往往比較困難;第二種方法與第一種相反,即“自頂向下”的方法,投資大、周期長。實(shí)際中大多采用第一種方法。
2.3數(shù)據(jù)倉庫實(shí)現(xiàn)第一種方法類似于軟件工程中“自底向上”的方法,投333數(shù)據(jù)倉庫實(shí)例3.1
實(shí)例一3.2實(shí)例二3數(shù)據(jù)倉庫實(shí)例344OLAP和OLAM4.1
OLAP4.2OLAM4OLAP和OLAM35OLAP定義60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端客戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫的簡單查詢也不能滿足終端客戶分析的要求。客戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能獲得結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。4.1OLAPOLAP定義4.1OLAP36OLAP(On-LineAnalysisProcessing)定義是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上。
OLAP的主要特點(diǎn)一是在線性(OnLine),體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作;二是多維分析(Multi_Analysis),這是OLAP技術(shù)的核心所在。
4.1OLAPOLAP(On-LineAnalysisProcessi37根據(jù)對數(shù)據(jù)的組織方式的不同,OLAP分為兩種:
基于多維數(shù)據(jù)庫的OLAP(MD-OLAP)基于關(guān)系數(shù)據(jù)庫的OLAP(ROLAP)前者響應(yīng)速度快、執(zhí)行效率高,但源于結(jié)構(gòu)的局限,靈活性不高。與之相比,后者由于建立在大量現(xiàn)有數(shù)據(jù)庫(數(shù)據(jù)倉庫)的基礎(chǔ)上,靈活性、擴(kuò)展性要高的多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者。因此,雖然在響應(yīng)速度、執(zhí)行效率上差一點(diǎn),仍然得到了廣泛應(yīng)用。現(xiàn)有的OLAP工具大多基于后者。
4.1OLAP根據(jù)對數(shù)據(jù)的組織方式的不同,OLAP分為兩種:4.1OL38將OLAP與數(shù)據(jù)挖掘結(jié)合起來,發(fā)展出一種為數(shù)據(jù)挖掘服務(wù)的具有新型OLAP的數(shù)據(jù)倉庫,將更能適應(yīng)實(shí)際的需要。OLAM(OnLineAnalyticalMining,聯(lián)機(jī)分析挖掘)正是這種結(jié)合的產(chǎn)物。
4.2OLAM將OLAP與數(shù)據(jù)挖掘結(jié)合起來,發(fā)展出395數(shù)據(jù)挖掘基礎(chǔ)5.1
概述5.2實(shí)現(xiàn)5.3工具5數(shù)據(jù)挖掘基礎(chǔ)40二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長—據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。
5.1概述二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長—41數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。它是一個(gè)新興的,面向商業(yè)應(yīng)用的AI研究。1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術(shù)語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會(huì),匯集來自各個(gè)領(lǐng)域的研究人員和應(yīng)用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計(jì)、海量數(shù)據(jù)分析算法、知識(shí)表示、知識(shí)運(yùn)用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)的一個(gè)步驟,其后逐漸演變成KDD的同義詞。
5.1概述數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)42
現(xiàn)在,人們往往不加區(qū)別地使用兩者。KDD常常被稱為數(shù)據(jù)挖掘(DataMining),實(shí)際兩者是有區(qū)別的。一般將KDD中進(jìn)行知識(shí)學(xué)習(xí)的階段稱為數(shù)據(jù)挖掘(DataMining),數(shù)據(jù)挖掘是KDD中一個(gè)非常重要的處理步驟。數(shù)據(jù)挖掘是近年來出現(xiàn)的客戶關(guān)系管理(CustomerRelationshipManagement,CRM)、商業(yè)智能(BusinessIntelligence,BI)等熱點(diǎn)領(lǐng)域的核心技術(shù)之一。
5.1概述現(xiàn)在,人們往往不加區(qū)別地使用兩者。KD43數(shù)據(jù)準(zhǔn)備KDD的處理對象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,需要做一些準(zhǔn)備工作,也就數(shù)據(jù)的預(yù)處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇(選擇相關(guān)數(shù)據(jù))、凈化(消除噪音、冗余數(shù)據(jù))、推測(推算缺值數(shù)據(jù))、轉(zhuǎn)換(離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換)、數(shù)據(jù)縮減(減少數(shù)據(jù)量)等。數(shù)據(jù)準(zhǔn)備是KDD的第一個(gè)步驟,也是比較重要的一個(gè)步驟。數(shù)據(jù)準(zhǔn)備得好壞將直接影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。
5.2實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備5.2實(shí)現(xiàn)44數(shù)據(jù)挖掘數(shù)據(jù)挖掘是最為關(guān)鍵的步驟,它根據(jù)KDD的目標(biāo),選取相應(yīng)算法的參數(shù),分析數(shù)據(jù),得到可能形成知識(shí)的模式模型。目前采用較多的技術(shù)有決策樹、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等。
5.2實(shí)現(xiàn)數(shù)據(jù)挖掘5.2實(shí)現(xiàn)45模式的評(píng)估、解釋通過上面步驟所得到的模式,有可能是沒有意義或沒有實(shí)用價(jià)值的,因此需要評(píng)估,確定那些是有效的、有用的模式。此外,大部分模式是用數(shù)學(xué)手段描述的表達(dá)式,很難被人理解,還需要將其解釋成可理解的方式以呈現(xiàn)給用戶。
5.2實(shí)現(xiàn)模式的評(píng)估、解釋5.2實(shí)現(xiàn)46知識(shí)運(yùn)用發(fā)現(xiàn)知識(shí)是為了運(yùn)用,如何使知識(shí)能被運(yùn)用也是KDD的步驟之一。運(yùn)用知識(shí)有兩種方法:一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果,就可以對決策提供支持;另一種是要求對新的數(shù)據(jù)運(yùn)用知識(shí),由此可能產(chǎn)生新的問題,而需要對知識(shí)做進(jìn)一步的優(yōu)化。KDD過程可能需要多次的循環(huán)反復(fù),每一個(gè)步驟一旦與預(yù)期目標(biāo)不符,都要回到前面的步驟,重新調(diào)整,重新執(zhí)行。5.2實(shí)現(xiàn)知識(shí)運(yùn)用5.2實(shí)現(xiàn)47一般而言,一個(gè)企業(yè)實(shí)施數(shù)據(jù)挖掘項(xiàng)目有三種方式可供選擇:購買成熟的模型購買一般性數(shù)據(jù)挖掘系統(tǒng)軟件構(gòu)建數(shù)據(jù)挖掘系統(tǒng)
5.2實(shí)現(xiàn)一般而言,一個(gè)企業(yè)實(shí)施數(shù)據(jù)挖掘項(xiàng)目有48目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)包括:EnterpriseMiner(SAS公司)IntelligentMiner(IBM公司)SetMiner(SGI公司)Clementine(SPSS公司)WarehouseStudio(Sybase公司)See5(RuleQuestResearch公司)CoverStoryEXPLORAKnowledgeDiscoveryWorkbenchDBMinerQuest等5.3工具目前,世界上比較有影響的典型數(shù)據(jù)挖掘系統(tǒng)包括:5496聚類分析6.1
硬聚類6.2模糊聚類6.3評(píng)價(jià)6聚類分析50聚類分析從紛繁復(fù)雜的數(shù)據(jù)中,根據(jù)最大化類內(nèi)相似性、最小化類間相似性的原則進(jìn)行聚類或分組。即使得在一個(gè)簇內(nèi)的對象具有高相似性,而不同簇間的對象具有低相似性的過程。6.1硬聚類聚類分析6.1硬聚類516.1硬聚類基于劃分的聚類方法基于層次的聚類方法基于密度的聚類方法基于網(wǎng)格的聚類方法基于模型的聚類方法
6.1硬聚類526.2模糊聚類模糊聚類(FuzzyClusteringAnalysis,F(xiàn)CA)是指一個(gè)對象以不同程度屬于多個(gè)類,各個(gè)類之間的界限是不確定的。其本質(zhì)是不僅要考慮對象是否屬于該類,而且要考慮屬于該類的程度如何。模糊聚類完全不同于所謂的硬聚類,即類別之間的界限是明確而嚴(yán)格的。聚類有效性對聚類分析具有重要意義,被認(rèn)為是聚類分析的一個(gè)瓶頸。對于相同的數(shù)據(jù)集合,采用不同的聚類方法,可能得到不同的聚類結(jié)果。
即便是采用同一種聚類方法,若選擇不同的初始參數(shù)(如聚類數(shù)、聚類中心等)也可能會(huì)得到不同的聚類結(jié)果。
6.2模糊聚類模糊聚類(FuzzyClustering536.3評(píng)價(jià)可伸縮性即算法中模式數(shù)發(fā)生變化的情況。有些算法在模式數(shù)小的條件下,算法的性能很好,但是模式數(shù)增大后,算法性能下降。如PAM算法是一種k-中心點(diǎn)算法,它對小的數(shù)據(jù)集合非常有效,但對大的數(shù)據(jù)集合則沒有良好的可伸縮性。高維性即算法中模式屬性個(gè)數(shù)發(fā)生變化的情況。同樣,有些算法只擅長處理低維數(shù)據(jù)。在高維空間中聚類是一個(gè)挑戰(zhàn),特別是數(shù)據(jù)有可能非常稀疏和偏斜。
6.3評(píng)價(jià)可伸縮性546.3評(píng)價(jià)發(fā)現(xiàn)任意形狀的聚類一個(gè)簇可能是任意形狀的,但一般的聚類算法是基于歐氏距離和曼哈頓距離度量實(shí)現(xiàn)聚類,更趨于發(fā)現(xiàn)球狀簇。在這方面,基于密度的聚類方法較好。處理噪聲數(shù)據(jù)的能力噪聲數(shù)據(jù)可能是數(shù)據(jù)本身不完整,也可能是孤立點(diǎn)數(shù)據(jù)(Outlier)。有些算法不擅于處理孤立點(diǎn)數(shù)據(jù),因此還專門出現(xiàn)了發(fā)現(xiàn)孤立點(diǎn)數(shù)據(jù)的算法。
6.3評(píng)價(jià)發(fā)現(xiàn)任意形狀的聚類556.3評(píng)價(jià)用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化和輸入記錄順序敏感性一方面要求降低算法對輸入?yún)?shù)的敏感程度,另一方面要求輸入記錄順序?qū)λ惴ǖ慕Y(jié)果影響小。如經(jīng)典的k-均值算法,需要預(yù)先給出簇的數(shù)目。在一些知識(shí)發(fā)現(xiàn)應(yīng)用中,這一參數(shù)非常影響聚類的質(zhì)量。這常常是高效率算法的弱點(diǎn)。
6.3評(píng)價(jià)用于決定輸入?yún)?shù)的領(lǐng)域知識(shí)最小化和輸入記錄順序566.3評(píng)價(jià)可解釋性和可用性知識(shí)發(fā)現(xiàn)過程中,聚類結(jié)果總是表現(xiàn)為一定的知識(shí),這就要求聚類結(jié)果可解釋、易理解。這與可視化密切相關(guān),同時(shí)也與實(shí)際應(yīng)用有關(guān)。如SOM(SelfOrganizationMapping)算法用于文本聚類可以產(chǎn)生知識(shí)地圖,表現(xiàn)了良好的可視化性能。
6.3評(píng)價(jià)可解釋性和可用性577分類和預(yù)測7.1概述7.2神經(jīng)網(wǎng)絡(luò)7.3決策樹7.4實(shí)現(xiàn)過程7分類和預(yù)測587.1概述分類是數(shù)據(jù)挖掘中的一個(gè)重要課題。分類的目的是獲得一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某一個(gè)給定類別。分類可用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。
7.1概述分類是數(shù)據(jù)挖掘中的一個(gè)重要課題。59分類方法的評(píng)價(jià)標(biāo)準(zhǔn)預(yù)測的正確性時(shí)間構(gòu)建模型的時(shí)間使用模型所需的時(shí)間健壯性處理噪聲及缺失值的能力可擴(kuò)展性可操作性規(guī)則的優(yōu)化決策樹的大小分類規(guī)則的簡潔性分類方法的評(píng)價(jià)標(biāo)準(zhǔn)預(yù)測的正確性607.1概述常見的分類方法決策樹分類決策樹歸納是一種經(jīng)典的分類算法。它采用自頂向下、遞歸的、各個(gè)擊破的方式構(gòu)造決策樹。樹的每一個(gè)結(jié)點(diǎn)上使用信息增益度量選擇屬性,可以從所生成的決策樹中提取出分類規(guī)則。
7.1概述常見的分類方法617.1概述KNN分類即K最近鄰法,最初由Cover和Hart于1968年提出的,是一個(gè)理論上比較成熟的方法。該方法的思路非常簡單直觀:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。該方法在分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分類樣本所屬的類別。該算法較適用于樣本容量比較大的類域的自動(dòng)分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。
7.1概述KNN分類627.1概述SVM分類方法即支持向量機(jī)(SupportVectorMachine)法,由Vapnik等人于1995年提出,具有相對優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過學(xué)習(xí),SVM可以自動(dòng)尋找出那些對分類有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類器可以最大化類與類的間隔,因而有較好的適應(yīng)能力和較高的分準(zhǔn)率。該方法只需要由各類域的邊界樣本的類別來決定最后的分類結(jié)果。SVM法對小樣本情況下的自動(dòng)分類有著較好的分類結(jié)果。
7.1概述SVM分類方法637.1概述VSM分類方法即向量空間模型(VectorSpaceModel)法,由Salton等人于60年代末提出。這是最早也是最著名的信息檢索方面的數(shù)學(xué)模型。其基本思想是將文檔表示為加權(quán)的特征向量:D=D(T1,W1;T2,W2;…;Tn,Wn),然后通過計(jì)算文本相似度的方法來確定待分類樣本的類別。當(dāng)文本被表示為空間向量模型的時(shí)候,文本的相似度就可以借助特征向量之間的內(nèi)積來表示。VSM法相對其他分類方法而言,更適合于專業(yè)文獻(xiàn)的分類。
7.1概述VSM分類方法64人工神經(jīng)網(wǎng)絡(luò)(ANN)預(yù)測方法目前應(yīng)用最廣泛的短期預(yù)測方法。它是一種通用的非線性自適應(yīng)函數(shù)估計(jì)器,通過對研究目標(biāo)的歷史數(shù)據(jù)訓(xùn)練,建立起復(fù)雜的非線性映射模型。它不依賴于輸入變量和預(yù)測目標(biāo)之間明確的表達(dá)式,輸入變量和預(yù)測目標(biāo)之間的關(guān)系通過訓(xùn)練過程來形成,避免了建模過程的困難;另一顯著特征是它的自適應(yīng)算法,在每一時(shí)刻都可以選擇新的訓(xùn)練樣本來估計(jì)和調(diào)整系統(tǒng)參數(shù),得到預(yù)測值。現(xiàn)在多采用誤差反向傳播(BP)算法和徑向基函數(shù)(RBF)方法。但是,它的隱層神經(jīng)元個(gè)數(shù)不易確定,易陷入局部最優(yōu)點(diǎn),需要大量訓(xùn)練樣本且訓(xùn)練時(shí)間較長。
7.1概述人工神經(jīng)網(wǎng)絡(luò)(ANN)預(yù)測方法7.1概述65專家系統(tǒng)預(yù)測方法基于知識(shí)建立起來的計(jì)算機(jī)系統(tǒng),它擁有某個(gè)領(lǐng)域內(nèi)專家們的知識(shí)和經(jīng)驗(yàn),能像專家們那樣運(yùn)用這些知識(shí),通過推理作出決策。實(shí)踐證明,專家系統(tǒng)預(yù)測不僅需要新技術(shù)的支持,同時(shí)也需要融合人類自身的經(jīng)驗(yàn)和智慧。因此,需要專家系統(tǒng)的相關(guān)技術(shù)。但是,知識(shí)獲取的“瓶頸”問題妨礙了專家系統(tǒng)的快速開發(fā)。
7.1概述專家系統(tǒng)預(yù)測方法7.1概述66模糊預(yù)測方法建立在模糊數(shù)學(xué)理論上的一種預(yù)測新技術(shù),模糊數(shù)學(xué)是用數(shù)學(xué)方法來研究和處理具有“模糊性”的現(xiàn)象。所謂模糊性主要是指有關(guān)事物差異的中間過渡中的不分明性,如溫度值的“高與低”等,這些模糊現(xiàn)象很難明確劃分其界限。
7.1概述模糊預(yù)測方法7.1概述67小波分析預(yù)測方法20世紀(jì)數(shù)學(xué)研究成果中最杰出的代表。它是一種時(shí)域—頻域分析方法,在時(shí)域和頻域上同時(shí)具有良好的局部化性質(zhì)。
7.1概述小波分析預(yù)測方法7.1概述68優(yōu)選組合預(yù)測方法(兩種)一是指將幾種預(yù)測方法所得預(yù)測結(jié)果,選取適當(dāng)權(quán)重進(jìn)行加權(quán)平均;二是指將幾種預(yù)測方法進(jìn)行比較,選擇擬合優(yōu)度最佳或標(biāo)準(zhǔn)離差最小的預(yù)測模型作為最優(yōu)模型進(jìn)行預(yù)測。組合預(yù)測方法是建立在信息利用最大化的基礎(chǔ)上,它集結(jié)多種單一模型所包含的信息,進(jìn)行最優(yōu)組合。因此,在大多數(shù)情況下,通過組合預(yù)測可以達(dá)到改善預(yù)測結(jié)果的目的。
7.1概述優(yōu)選組合預(yù)測方法(兩種)7.1概述697.2神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)(ArtificialNeuralNetwork,ANN)是20世紀(jì)80年代后期迅速發(fā)展起來的人工智能技術(shù),它對噪聲數(shù)據(jù)具有很高的承受能力,對未經(jīng)訓(xùn)練的數(shù)據(jù)具有分類模擬的能力,因此在網(wǎng)站信息、生物信息和基因以及文本的數(shù)據(jù)挖掘等領(lǐng)域得到了越來越廣泛的應(yīng)用。在多種ANN模型中,反向傳播(BackPropagation,BP)網(wǎng)絡(luò)是應(yīng)用最廣的一種。
7.2神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)(Artificia70神經(jīng)網(wǎng)絡(luò)的訓(xùn)練訓(xùn)練的終止條件獲得一組權(quán)重值,使得訓(xùn)練集中幾乎所有樣本都分類正確訓(xùn)練步驟利用隨機(jī)值對權(quán)值進(jìn)行初始化將訓(xùn)練樣本逐一地輸入給神經(jīng)網(wǎng)絡(luò),進(jìn)行訓(xùn)練對于每個(gè)神經(jīng)元將其所有的輸入值進(jìn)行線性求和計(jì)算得到總的輸入利用激勵(lì)函數(shù)計(jì)算其輸出值計(jì)算誤差修正網(wǎng)絡(luò)權(quán)值和閾值(偏差)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練訓(xùn)練的終止條件717.3決策樹決策樹分類是用屬性值對樣本集逐級(jí)劃分,直到一個(gè)節(jié)點(diǎn)僅含有同一類的樣本為止。決策樹首先起源于Hunt等人提出的概念學(xué)習(xí)系統(tǒng)(ConceptLearningSystem,CLS),然后發(fā)展到Quinlan的ID3算法,最后演化為能處理連續(xù)屬性值的C45算法。
7.3決策樹決策樹分類是用屬性值對樣本集逐級(jí)727.3決策樹決策樹的輸入一組帶有類別標(biāo)記的樣本決策樹的輸出一棵二叉或多叉樹。二叉樹的內(nèi)部節(jié)點(diǎn)(非葉子節(jié)點(diǎn))一般表示為一個(gè)邏輯判斷,如形式為(ai=vi)的邏輯判斷,其中ai是屬性,vi是該屬性的某個(gè)屬性值;樹的邊是邏輯判斷的分支結(jié)果。多叉樹(ID3)的內(nèi)部節(jié)點(diǎn)是屬性,邊是該屬性的所有取值,有幾個(gè)屬性值,就有幾條邊。樹的葉子節(jié)點(diǎn)則是類別標(biāo)記。
7.3決策樹決策樹的輸入737.3決策樹決策樹的構(gòu)造采用自上而下的遞歸構(gòu)造。以多叉樹為例,其構(gòu)造思路是:如果訓(xùn)練樣本集中所有樣本是同類的,則將它作為葉子節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容即是該類別標(biāo)記;否則,根據(jù)某種策略選擇一個(gè)屬性,按照屬性的不同取值,將樣本集劃分為若干子集,使得每個(gè)子集上的所有樣本在該屬性上具有同樣的屬性值。然后再依次處理各個(gè)子集。實(shí)際上就是“分而治之”(divide-and-conquer)的策略。二叉樹同理,差別僅在于要選擇一個(gè)好的邏輯判斷。
7.3決策樹決策樹的構(gòu)造747.3決策樹決策樹構(gòu)造的條件構(gòu)造好的決策樹的關(guān)鍵是:如何選擇好的邏輯判斷或?qū)傩浴τ谕瑯右唤M樣本,可以有很多決策樹能符合這組樣本。研究表明,一般情況下,樹越小則樹的預(yù)測能力越強(qiáng)。要構(gòu)造盡可能小的決策樹,關(guān)鍵在于選擇恰當(dāng)?shù)倪壿嬇袛嗷驅(qū)傩浴S捎跇?gòu)造最小的樹是NP問題,因此只能采用啟發(fā)式策略選擇好的邏輯判斷或?qū)傩浴?/p>
7.3決策樹決策樹構(gòu)造的條件757.3決策樹剪枝技術(shù)是一種克服噪聲的技術(shù),同時(shí)它也能使樹得到簡化而變得更容易理解。剪枝的類型-向前剪枝(forwardpruning)在生成樹的同時(shí)決定是繼續(xù)對不純的訓(xùn)練子集進(jìn)行劃分還是停機(jī)。-向后剪枝(backwardpruning)是一種兩階段法:擬合-化簡(fitting-and-simplifying),首先生成與訓(xùn)練數(shù)據(jù)完全擬合的一棵決策樹,然后從樹的葉子開始剪枝,逐步向根的方向剪。
7.3決策樹剪枝技術(shù)767.3決策樹剪枝的局限性剪枝并不是對所有的數(shù)據(jù)集都好,就象最小樹并不是最好(具有最大的預(yù)測率)的樹。當(dāng)數(shù)據(jù)稀疏時(shí),要防止過分剪枝(over-pruning)。從某種意義上而言,剪枝也是一種偏向(bias),對有些數(shù)據(jù)效果好而有些數(shù)據(jù)則效果差。
7.3決策樹剪枝的局限性77構(gòu)建模型:預(yù)設(shè)分類類別對每個(gè)樣本進(jìn)行類別標(biāo)記訓(xùn)練集構(gòu)成分類模型分類模型可表示為:分類規(guī)則、決策樹或數(shù)學(xué)公式使用模型:識(shí)別未知對象的所屬類別模型正確性的評(píng)價(jià)已標(biāo)記分類的測試樣本與模型的實(shí)際分類結(jié)果進(jìn)行比較模型的正確率是指測試集中被正確分類的樣本數(shù)與樣本總數(shù)的百分比。測試集與訓(xùn)練集相分離,否則將出現(xiàn)過擬合(over-fitting)現(xiàn)象。7.4實(shí)現(xiàn)過程構(gòu)建模型:預(yù)設(shè)分類類別7.4實(shí)現(xiàn)過程788關(guān)聯(lián)分析8.1
概述8.2Apriori8.3FP-Growth8關(guān)聯(lián)分析8.1概述798.1概述Apriori算法的基本流程
使用逐層搜索的迭代方法,通過對數(shù)據(jù)庫的多次掃描發(fā)現(xiàn)所有的頻繁項(xiàng)集。在每一趟掃描中只考慮具有同一長度k(即為項(xiàng)集中所含項(xiàng)目的個(gè)數(shù))的所有項(xiàng)集。算法的第一次掃描僅僅計(jì)算每個(gè)項(xiàng)目的具體支持度,以確定長度為1的頻繁項(xiàng)集。在后繼的每一次掃描中,首先使用在前一次獲得的頻繁項(xiàng)集Lk-1和Apriori-gen函數(shù)產(chǎn)生的候選項(xiàng)集q,接著掃描數(shù)據(jù)庫,計(jì)算Ck中候選項(xiàng)的支持度,最后確定候選項(xiàng)集中哪些真正成為頻繁項(xiàng)集。重復(fù)上述過程直到再也發(fā)現(xiàn)不了新的頻繁項(xiàng)集為止。8.1概述Apriori算法的基本流程808.2Apriori算法算法Apriori算法的局限性
由于依賴于候選項(xiàng)集產(chǎn)生頻繁項(xiàng)集的理論(Apriori類算法)所開發(fā)的算法具有先天的弱點(diǎn),使得在基于Apriori算法開發(fā)的應(yīng)用沒有實(shí)質(zhì)性突破。Han等提出的一種新的算法理論,用一種壓縮的數(shù)據(jù)結(jié)構(gòu)(FP-tree)存儲(chǔ)關(guān)聯(lián)規(guī)則挖掘所需的全部數(shù)據(jù)信息,通過對源數(shù)據(jù)的兩次掃描,將數(shù)據(jù)信息存到這種結(jié)構(gòu)里,避開了產(chǎn)生候選項(xiàng)集的步驟,極大地減少了數(shù)據(jù)交換和頻繁匹配的開銷。這就是所謂無候選項(xiàng)集產(chǎn)生的算法(FrequentPatternsGrowth,FP-growth)。8.2Apriori算法算法Apriori算法的局限818.3FP-Grpwth算法改進(jìn)的算法——FP-growth(1)它構(gòu)造了一種新穎的、緊湊的數(shù)據(jù)結(jié)構(gòu)FP-tree。它是一種擴(kuò)展的前綴樹結(jié)構(gòu),存儲(chǔ)了關(guān)于頻繁模式數(shù)量的重要信息。(2)開發(fā)了基于FP-tree的模式片斷成長算法,它從長度為1的頻繁模式開始,只檢查它的條件模式構(gòu)建它的條件模式樹,并且在這個(gè)樹上遞歸地進(jìn)行挖掘。模式的成長通過聯(lián)合條件模式樹新產(chǎn)生的后綴模式實(shí)現(xiàn)。(3)挖掘過程中采用的搜索技術(shù)是基于分區(qū)的,通過分割再解決的方法,而不是Apriori類算法的自下向上產(chǎn)生頻繁模式的集合。8.3FP-Grpwth算法改進(jìn)的算法——FP-grow82FP-growth算法的主要思想該算法主要是為了克服類Apriori算法的產(chǎn)生候選項(xiàng)集的缺點(diǎn),通過采用一種新的數(shù)據(jù)結(jié)構(gòu)FP-tree來達(dá)到目的。優(yōu)點(diǎn):只掃描數(shù)據(jù)庫二次,并且不用產(chǎn)生候選項(xiàng)集,提高了效率。
8.3FP-Grpwth算法FP-growth算法的主要思想8.3FP-Grpwth839Web挖掘9.1
概述9.2Web文檔抽取和表示9.3特征抽取9.4Web聚類9.5Web分類9Web挖掘9.1概述849.1概述定義-描述性的定義Web挖掘是指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘是一項(xiàng)綜合技術(shù),覆蓋了多個(gè)研究領(lǐng)域,包括Web技術(shù)、數(shù)據(jù)庫、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)、信息獲取、統(tǒng)計(jì)學(xué)以及人工智能等。-抽象化的定義一般地,Web挖掘是指從大量Web集合中發(fā)現(xiàn)隱含的模式。如果將看作輸入,將看作輸出,則Web挖掘就是一個(gè)從輸入到輸出的映射,即ξ:→。9.1概述定義859.1概述定義-概括性的定義Web挖掘是從與WWW相關(guān)的資源和行為中抽取感興趣的、潛在的有用的模式和隱含信息。Web挖掘可在很多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)挖掘、確定權(quán)威頁面、Web文檔分類、Web日志挖掘和智能檢索等。9.1概述定義869.2Web文檔抽取和表示W(wǎng)eb表示模型-布爾模型
-概率模型-向量空間模型9.2Web文檔抽取和表示W(wǎng)eb表示模型879.3特征抽取Web表示模型-統(tǒng)計(jì)
-TFIDF
-互信息
9.3特征抽取Web表示模型889.4Web聚類實(shí)現(xiàn)步驟-模式表示,包括特征抽取以及把Web文檔表示成可計(jì)算的形式;-根據(jù)領(lǐng)域知識(shí)定義模式之間的距離測度公式;-聚類或者分組;-評(píng)價(jià)輸出結(jié)果。9.4Web聚類實(shí)現(xiàn)步驟899.4Web聚類主要困難一個(gè)Web文檔可能包含多個(gè)主題,允許屬于不同主題的文檔歸入多個(gè)不同的簇。高維詛咒問題,即由于文檔特征項(xiàng)維度眾多而造成處理效率嚴(yán)重降低。海量文檔的處理效率。聚類效果評(píng)價(jià)。9.4Web聚類主要困難909.5Web分類9.5Web分類9110數(shù)據(jù)挖掘?qū)嵗?0.1客戶細(xì)分
10.2重入網(wǎng)識(shí)別10.3WAP日志挖掘10數(shù)據(jù)挖掘?qū)嵗?210.1客戶細(xì)分
客戶群價(jià)值分布
10.1客戶細(xì)分客戶群價(jià)值分布9310.1客戶細(xì)分客戶消費(fèi)行為的聚類結(jié)果
10.1客戶細(xì)分客戶消費(fèi)行為的聚類結(jié)果9410.1客戶細(xì)分客戶通話行為的聚類結(jié)果
10.1客戶細(xì)分客戶通話行為的聚類結(jié)果9510.2重入網(wǎng)識(shí)別識(shí)別過程-確定待匹配用戶和新入網(wǎng)用戶清單。-呼叫指紋識(shí)別需要建立新入網(wǎng)用戶群和待匹配用戶群兩個(gè)數(shù)據(jù)集。-選擇特征變量和數(shù)據(jù)清洗-建立呼叫指紋庫-設(shè)定呼叫指紋相似度閾值,大于該閾值的匹配用戶對可界定為疑似重入網(wǎng)用戶。-驗(yàn)證10.2重入網(wǎng)識(shí)別識(shí)別過程9610.3WAP日志挖掘分析過程-數(shù)據(jù)整合-聚類-結(jié)果展示-解釋和評(píng)價(jià)10.3WAP日志挖掘分析過程9711知識(shí)11.1
概述11.2知識(shí)分類11.3知識(shí)表示11.4知識(shí)管理11知識(shí)11.1概述9811.1概述信息是事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的方式。數(shù)據(jù)指一個(gè)有關(guān)事實(shí)F的集合(如學(xué)生檔案數(shù)據(jù)庫中有關(guān)學(xué)生基本情況的各條記錄),用來描述事物有關(guān)方面的信息。一般而言,這些數(shù)據(jù)都是準(zhǔn)確無誤的。數(shù)據(jù)可能存儲(chǔ)在數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他信息資料庫中。11.1概述信息9911.1概述知識(shí)
人們實(shí)踐經(jīng)驗(yàn)的結(jié)晶且為新的實(shí)踐所證實(shí)的;是關(guān)于事物運(yùn)動(dòng)的狀態(tài)和狀態(tài)變化的規(guī)律;是對信息加工提煉所獲得的抽象化產(chǎn)物。知識(shí)的形式可能是模式、關(guān)聯(lián)、變化、異常以及其他有意義的結(jié)構(gòu)。11.1概述知識(shí)10011.1概述模式對于集合F中的數(shù)據(jù),我們可以用語言L來描述其中數(shù)據(jù)的特性,得出一個(gè)表達(dá)式E,E所描述的數(shù)據(jù)是集合F的一個(gè)子集FE。只有當(dāng)表達(dá)式E比列舉所有FE中元素的描述方法更為簡單時(shí),我們才可稱之為模式。如:“如果成績在81-90之間,則成績優(yōu)良”可稱為一個(gè)模式,而“如果成績?yōu)?1、82、83、84、85、86、87、88、89或90,則成績優(yōu)良”則不能稱之為一個(gè)模式。11.1概述模式10111.2知識(shí)分類顯性知識(shí)可以通過正常的語言方式傳播的知識(shí),典型的顯性知識(shí)主要是指以專利、科學(xué)發(fā)明和特殊技術(shù)等形式存在的知識(shí),存儲(chǔ)在書本、計(jì)算機(jī)數(shù)據(jù)庫、CDROM中。顯性知識(shí)是可以表達(dá)的、有物質(zhì)載體的和可確知的。在OECD所劃分的四類知識(shí)中,關(guān)于Know-what和Know-why的知識(shí)基本屬于顯性知識(shí)。隱性知識(shí)或稱為隱含經(jīng)驗(yàn)類知識(shí)(TacitKnowledge)個(gè)人或組織經(jīng)過長期積累而擁有的知識(shí),通常不易用言語表達(dá),也不可能傳播給別人或傳播起來非常困難。例如技術(shù)高超的廚師或藝術(shù)家可能達(dá)到世界水平,卻很難將自己的技術(shù)或技巧表達(dá)出來從而將其傳播給別人或共享。隱性知識(shí)對應(yīng)的是OECD分類中Know-how和Know-who的知識(shí),其特點(diǎn)是不易被認(rèn)識(shí)到、不易衡量其價(jià)值、不易被其他人所理解和掌握。11.2知識(shí)分類顯性知識(shí)10211.3知識(shí)表示11.3知識(shí)表示10311.3知識(shí)表示產(chǎn)生式系統(tǒng)
自然界的各種知識(shí)單元之間存在著大量的因果關(guān)系,這些因果關(guān)系或者前提與結(jié)論的關(guān)系,采用產(chǎn)生式(或稱規(guī)則)表示是非常方便的。實(shí)際上,謂詞公式的蘊(yùn)含關(guān)系就是產(chǎn)生式的特例,如“天下雨,地上濕了”。11.3知識(shí)表示產(chǎn)生式系統(tǒng)10411.3知識(shí)表示語義網(wǎng)絡(luò)
語義網(wǎng)絡(luò)是對對象及其屬性分類知識(shí)編碼的圖形結(jié)構(gòu)。語義網(wǎng)絡(luò)是一種由節(jié)點(diǎn)及節(jié)點(diǎn)間帶標(biāo)記的連接弧組成的有向圖,其中節(jié)點(diǎn)表示事物、對象、狀態(tài)和概念等,有兩類;連接弧表示節(jié)點(diǎn)間的關(guān)系,有三類,可用標(biāo)記說明具體的語義關(guān)系。11.3知識(shí)表示語義網(wǎng)絡(luò)10511.3知識(shí)表示概念圖
概念圖以圖形表示就是一種有向連通圖,包括概念結(jié)點(diǎn)和概念關(guān)系結(jié)點(diǎn)兩種。弧的方向代表概念結(jié)點(diǎn)和概念關(guān)系結(jié)點(diǎn)之間的聯(lián)系。概念結(jié)點(diǎn)表示問題領(lǐng)域中的一個(gè)具體的或抽象的實(shí)體,概念關(guān)系結(jié)點(diǎn)表示概念結(jié)點(diǎn)之間的聯(lián)系。11.3知識(shí)表示概念圖10611.3知識(shí)表示框架
框架通常由描述事物的各個(gè)方面的槽組成,每個(gè)槽可以有若干個(gè)側(cè)面,而每個(gè)側(cè)面又可以有若干個(gè)值。框架是一種通用的知識(shí)表達(dá)方法,對于如何運(yùn)用框架還沒有一種統(tǒng)一的形式,常常由各種問題的不同需要決定。11.3知識(shí)表示框架10711.4知識(shí)管理目標(biāo)
-知識(shí)的發(fā)布,以使一個(gè)組織內(nèi)的所有成員都能應(yīng)用知識(shí);-確保知識(shí)在需要時(shí)是可得的;-推進(jìn)新知識(shí)的有效開發(fā);-支持從外部獲取知識(shí);-確保知識(shí)、新知識(shí)在組織的擴(kuò)散;-確保組織內(nèi)部的人知道所需知識(shí)在何處。11.4知識(shí)管理目標(biāo)10811.4知識(shí)管理框架
框架通常由描述事物的各個(gè)方面的槽組成,每個(gè)槽可以有若干個(gè)側(cè)面,而每個(gè)側(cè)面又可以有若干個(gè)值。框架是一種通用的知識(shí)表達(dá)方法,對于如何運(yùn)用框架還沒有一種統(tǒng)一的形式,常常由各種問題的不同需要決定。11.4知識(shí)管理框架10912語義網(wǎng)和本體
12.1
語義網(wǎng)12.2本體12語義網(wǎng)和本體11012.1語義網(wǎng)層次結(jié)構(gòu)
12.1語義網(wǎng)層次結(jié)構(gòu)11112.1語義網(wǎng)Unicode和URI層
Unicode和URI是整個(gè)語義網(wǎng)的基礎(chǔ),其中Unicode負(fù)責(zé)資源的編碼,URI負(fù)責(zé)資源的標(biāo)識(shí)。XML、NameSpace和XMLSchema
XML已經(jīng)成為數(shù)據(jù)表示和數(shù)據(jù)交換的事實(shí)標(biāo)準(zhǔn),提供一種格式自由的語法,用戶可以按照自己的需要?jiǎng)?chuàng)建標(biāo)記集,并使用這些標(biāo)記編寫XML文檔。XMLSchema提供了一種對XML文檔進(jìn)行數(shù)據(jù)校驗(yàn)的機(jī)制,基于XML語法提供多種數(shù)據(jù)類型,對XML標(biāo)記的結(jié)構(gòu)和使用方法進(jìn)行了規(guī)范。XMLQuery是在XML基礎(chǔ)上發(fā)展起來的技術(shù)標(biāo)準(zhǔn),類似的還有XPath等,使用這些技術(shù)可以對XML文檔進(jìn)行數(shù)據(jù)檢索、提取節(jié)點(diǎn)等操作。12.1語義網(wǎng)Unicode和URI層11212.1語義網(wǎng)RDF和RDFSchema層
RDF采用三元組又稱為陳述(Statement),表示互聯(lián)網(wǎng)的資源、屬性和值。三元組由主體(Subject),謂詞(Predicate)和客體(Object)組成,分別對應(yīng)陳述中的資源、屬性和值。RDF提供了一套標(biāo)準(zhǔn)的數(shù)據(jù)語義描述規(guī)范,但它還需要定義描述中使用的詞匯。RDFSchema(RDFS)提供了一種面向計(jì)算機(jī)理解的詞匯定義,提供了描述類和屬性的能力。RDFS在RDF的基礎(chǔ)上引入類、類之間的關(guān)系、屬性之間的關(guān)系以及屬性的定義域與值域等。如同一部字典,計(jì)算機(jī)通過它可以理解數(shù)據(jù)的含義。12.1語義網(wǎng)RDF和RDFSchema層11312.1語義網(wǎng)本體(Ontology)層
該層用于描述各種資源之間的聯(lián)系,本體揭示了資源本身及資源之間更為復(fù)雜和豐富的語義,從而將信息的結(jié)構(gòu)和內(nèi)容分離,對信息進(jìn)行完全形式化的描述,使Web信息具有計(jì)算機(jī)可理解的語義。因?yàn)楸倔w定義了不同概念間的關(guān)系,所以本體層能夠?qū)ψ值洌ɑ蛟~匯)的演化提供支持。12.1語義網(wǎng)本體(Ontology)層11412.1語義網(wǎng)邏輯(Logic)層
該層用來產(chǎn)生規(guī)則,主要提供公理和推理規(guī)則,為智能推理提供基礎(chǔ)。證明(Proof)層
證明層執(zhí)行邏輯層產(chǎn)生的規(guī)則,主要提供認(rèn)證機(jī)制,并結(jié)合信任層的應(yīng)用機(jī)制評(píng)判是否能夠信賴給定的證明。信任(Trust)層
主要提供信任機(jī)制,以保證用戶代理(Agent)在Web上進(jìn)行個(gè)性化服務(wù)和交互更安全可靠。12.1語義網(wǎng)邏輯(Logic)層11512.2本體定義
支持知識(shí)共享和重用的形式化結(jié)構(gòu),將信息的結(jié)構(gòu)和內(nèi)容分離,實(shí)現(xiàn)對信息進(jìn)行完全形式化的描述,為信息提供一個(gè)統(tǒng)一的共同表達(dá)的語義結(jié)構(gòu)。作用
-為人類和應(yīng)用系統(tǒng)提供一個(gè)對于主題的共同理解。-為不同來源的信息合成,提供一個(gè)共同的相關(guān)領(lǐng)域的理解。-為在不同的應(yīng)用程序之間共享信息和知識(shí),描述應(yīng)用程序的領(lǐng)域,定義術(shù)語及其關(guān)系。12.2本體定義11612.2本體開發(fā)工具Jena
Jena是一套開發(fā)語義網(wǎng)應(yīng)用的JavaAPI,包括對RDF、RDFS和OWL描述的本體模型的解析、創(chuàng)建和串行化等。SPARQL語句的解析,轉(zhuǎn)化為SQL以及基于規(guī)則的推理引擎。Jena提供了讀取、創(chuàng)建和輸出模型的JavaAPI。其主要的數(shù)據(jù)結(jié)構(gòu)是圖,但是用戶操作主要還是在模型上進(jìn)行。基本的方法是通過ModelFactory建立模型,然后通過模型創(chuàng)建資源(URI),再通過資源添加屬性,逐步構(gòu)成一個(gè)圖。12.2本體開發(fā)工具Jena11712.2本體分類
-頂級(jí)(Top-level)本體描述的是最普遍的概念及概念之間的關(guān)系,如空間、時(shí)間、事件、行為等,與具體應(yīng)用無關(guān),其他本體均為其特例;-領(lǐng)域本體(DomainOntology)描述的是特定領(lǐng)域中的概念和概念之間的關(guān)系;-任務(wù)本體(TaskOntology)描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系;-應(yīng)用本體(ApplicationOntology)描述的是依賴于特定領(lǐng)域和任務(wù)的概念和概念之間的關(guān)系。12.2本體分類11812.2本體構(gòu)建方法
-骨架法-IDEF-5方法-循環(huán)獲取過程12.2本體構(gòu)建方法119謝謝!謝謝!120數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
原理及應(yīng)用東華理工大學(xué)理學(xué)院劉愛華數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
原理及應(yīng)用東華理工大學(xué)理學(xué)院121目錄數(shù)據(jù)倉庫基礎(chǔ)7.分類和預(yù)測
數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn)
8.關(guān)聯(lián)分析
數(shù)據(jù)倉庫實(shí)例
9.Web挖掘
OLAP和OLAM
10.數(shù)據(jù)挖掘?qū)嵗?/p>
5.數(shù)據(jù)挖掘基礎(chǔ)11.
知識(shí)
聚類分析12.語義網(wǎng)和本體
目錄數(shù)據(jù)倉庫基礎(chǔ)7.分1221數(shù)據(jù)倉庫基礎(chǔ)1.1
引言1.2體系結(jié)構(gòu)1.3組成1.4元數(shù)據(jù)1.5數(shù)據(jù)粒度1.6數(shù)據(jù)模型1.7ETL1數(shù)據(jù)倉庫基礎(chǔ)1.1引言1231.1引言數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。此定義由最為權(quán)威的、被稱為“數(shù)據(jù)倉庫之父”的WilliamH.Inmon先生給出。
1.1引言數(shù)據(jù)倉庫定義124面向主題的
是相對于傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用而言的。所謂面向應(yīng)用,指的是系統(tǒng)實(shí)現(xiàn)過程中主要圍繞著一些應(yīng)用或功能。而面向主題則考慮一個(gè)個(gè)的問題域,對問題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視。典型的主題領(lǐng)域
顧客、產(chǎn)品、事務(wù)或活動(dòng)、保險(xiǎn)單、索賠和賬目。1.1引言面向主題的1.1引言125集成的
數(shù)據(jù)倉庫中的數(shù)據(jù)來自各個(gè)不同的數(shù)據(jù)源(操作數(shù)據(jù)庫)。由于歷史的原因,各操作數(shù)據(jù)庫的組織結(jié)構(gòu)往往是不同的,在這些異構(gòu)數(shù)據(jù)輸入到數(shù)據(jù)倉庫之前,必須經(jīng)歷一個(gè)集成過程。
1.1引言集成的1.1引言126集成的
最重要的特點(diǎn)。應(yīng)用問題的設(shè)計(jì)人員制定出不同的設(shè)計(jì)決策,且表示方法不同。例如編碼、命名習(xí)慣、實(shí)際屬性和屬性度量等方面不一致。數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫時(shí),需要消除各種不一致性。例如,數(shù)據(jù)倉庫中顧客“性別”的編碼,可采用“男/女”或“m/f”,采用哪種方式并不重要,重要的是在數(shù)據(jù)倉庫中應(yīng)該統(tǒng)一編碼。如果應(yīng)用數(shù)據(jù)編碼為“X/Y”,則進(jìn)入數(shù)據(jù)倉庫時(shí)需要進(jìn)行轉(zhuǎn)換。此外,對所有應(yīng)用所涉及的問題都要考慮一致性。例如命名習(xí)慣、鍵碼結(jié)構(gòu)、屬性度量以及數(shù)據(jù)特點(diǎn)等。1.1引言集成的1.1引言127與時(shí)間相關(guān)的
數(shù)據(jù)倉庫以維的形式對數(shù)據(jù)進(jìn)行組織,時(shí)間維是數(shù)據(jù)倉庫中很重要的一個(gè)維度。并且數(shù)據(jù)倉庫中的數(shù)據(jù)時(shí)間跨度大,從幾年甚至到幾十年,稱為歷史數(shù)據(jù)。
1.1引言與時(shí)間相關(guān)的1.1引言128不可修改的
面向應(yīng)用的事務(wù)數(shù)據(jù)庫需要對數(shù)據(jù)進(jìn)行頻繁的插入、更新操作,而對于數(shù)據(jù)倉庫中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和記錄查詢。操作型數(shù)據(jù)是一次訪問和處理一個(gè)記錄,可以對操作型數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行更新。但數(shù)據(jù)倉庫中的數(shù)據(jù)則不同,通常是一起載入與訪問的,在數(shù)據(jù)倉庫環(huán)境中并不進(jìn)行一般意義上的數(shù)據(jù)更新。1.1引言不可修改的1.1引言1291.2體系結(jié)構(gòu)二層體系結(jié)構(gòu)1.2體系結(jié)構(gòu)二層體系結(jié)構(gòu)1301.2體系結(jié)構(gòu)三層體系結(jié)構(gòu)1.2體系結(jié)構(gòu)三層體系結(jié)構(gòu)1311.3數(shù)據(jù)倉庫組成一個(gè)數(shù)據(jù)倉庫的大小一般都是在100GB以上通常,數(shù)據(jù)倉庫系統(tǒng)應(yīng)該包含下列程序:(1)抽取數(shù)據(jù)與加載數(shù)據(jù)(2)整理并轉(zhuǎn)換數(shù)據(jù)(采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式)(3)備份與備存數(shù)據(jù)(4)管理所有查詢(即將查詢導(dǎo)向適當(dāng)?shù)臄?shù)據(jù)源)1.3數(shù)據(jù)倉庫組成一個(gè)數(shù)據(jù)倉庫的大小一般都是在100GB1321.3數(shù)據(jù)倉庫組成1.3數(shù)據(jù)倉庫組成1331.4元數(shù)據(jù)
定義
元數(shù)據(jù)(Metadata)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和數(shù)據(jù)倉庫開發(fā)人員非常方便地找到他們所需的數(shù)據(jù);元數(shù)據(jù)是描述數(shù)據(jù)倉庫中數(shù)據(jù)結(jié)構(gòu)和構(gòu)建方法的數(shù)據(jù)。1.4元數(shù)據(jù)定義1341.4元數(shù)據(jù)
分類
按照用途的不同分為技術(shù)元數(shù)據(jù)(TechnicalMetadata)和業(yè)務(wù)元數(shù)據(jù)(BusinessMetadata)兩大類。-技術(shù)元數(shù)據(jù)存儲(chǔ)關(guān)于數(shù)據(jù)倉庫系統(tǒng)技術(shù)細(xì)節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù),它保證了數(shù)據(jù)倉庫系統(tǒng)的正常運(yùn)行;-業(yè)務(wù)元數(shù)據(jù)從業(yè)務(wù)角度描述數(shù)據(jù)倉庫中的數(shù)據(jù),它提供介于使用者和實(shí)際系統(tǒng)之間的語義層,使得數(shù)據(jù)倉庫使用人員能夠“讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。1.4元數(shù)據(jù)分類1351.5數(shù)據(jù)粒度定義粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越小;相反,細(xì)化程度越低,粒度級(jí)就越大。粒度深深地影響存放在數(shù)據(jù)倉庫中數(shù)據(jù)量的大小,同時(shí)影響數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)粒度與查詢的詳細(xì)程度之間要做出權(quán)衡。1.5數(shù)據(jù)粒度定義1361.5數(shù)據(jù)粒度當(dāng)提高粒度級(jí)別時(shí),數(shù)據(jù)所能回答查詢的能力會(huì)隨之降低。換言之,在一個(gè)很低的粒度級(jí)別上,幾乎可以回答任何問題,但在高粒度級(jí)別上,數(shù)據(jù)所能處理的問題的數(shù)量是有限的。
1.5數(shù)據(jù)粒度當(dāng)提高粒度級(jí)別時(shí),數(shù)據(jù)所能回1371.6數(shù)據(jù)模型數(shù)據(jù)模型是對現(xiàn)實(shí)世界的一種抽象,根據(jù)抽象程度的不同,可形成不同抽象層次上的數(shù)據(jù)模型。與數(shù)據(jù)庫的數(shù)據(jù)模型相類似,數(shù)據(jù)倉庫的數(shù)據(jù)模型也分為三個(gè)層次:
概念模型邏輯模型物理模型
1.6數(shù)據(jù)模型數(shù)據(jù)模型是對現(xiàn)實(shí)世界的一種抽象138數(shù)據(jù)倉庫的數(shù)據(jù)模型星型結(jié)構(gòu)雪花型結(jié)構(gòu)星型雪花型結(jié)構(gòu)數(shù)據(jù)倉庫的數(shù)據(jù)=事實(shí)數(shù)據(jù)+維度數(shù)據(jù)不論是星型、雪花型或者是星型雪花型結(jié)構(gòu)都是以事實(shí)表為中心。不同點(diǎn)只是在外圍維度表相互之間的關(guān)系不同而已。
1.6數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型1.6數(shù)據(jù)模型139將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉庫所在的中心存儲(chǔ)庫的過程稱為ETL(Extraction,TransformationandLoading)過程,制定這個(gè)過程的策略稱之為ETL策略,而完成ETL過程的工具則是ETL工具。相對于數(shù)據(jù)倉庫中的表而言,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的表稱為源表,業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫稱為源數(shù)據(jù)庫,數(shù)據(jù)倉庫中所有的數(shù)據(jù)都來自于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫。在打造一個(gè)數(shù)據(jù)倉庫的過程中,ETL的實(shí)施是一項(xiàng)繁瑣、冗長而艱巨的任務(wù),因?yàn)樗P(guān)系到數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量問題,如果導(dǎo)入的數(shù)據(jù)漏洞百出,對決策者來說無疑是個(gè)噩耗。
ETL過程是搭建“數(shù)據(jù)倉庫”時(shí)最重要的和最易誤解的步驟之一。1.7ETL將原來業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換、加載到數(shù)據(jù)倉140ETL過程不僅僅是數(shù)據(jù)的遷移(Migration)或凈化(Cleansing),也應(yīng)該是企業(yè)數(shù)據(jù)管理策略中不可缺少的一部分。ETL過程的功能是:發(fā)現(xiàn)數(shù)據(jù)倉庫需要的數(shù)據(jù),將其從源系統(tǒng)中抽取出來,并進(jìn)行一定的處理,然后裝載到數(shù)據(jù)倉庫中去。
1.7ETLETL過程不僅僅是數(shù)據(jù)的遷移(Migr141提高數(shù)據(jù)質(zhì)量提供一種統(tǒng)一的、跨平臺(tái)的存取數(shù)據(jù)方法將數(shù)據(jù)“信息化”,為企業(yè)決策者的經(jīng)營分析提供信息來源1.7ETL提高數(shù)據(jù)質(zhì)量1.7ETL1422數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn)2.1
數(shù)據(jù)倉庫設(shè)計(jì)2.2ETL設(shè)計(jì)2.3數(shù)據(jù)倉庫實(shí)現(xiàn)2數(shù)據(jù)倉庫設(shè)計(jì)和實(shí)現(xiàn)143(1)確定數(shù)據(jù)倉庫的主題根據(jù)電信業(yè)務(wù)和電信運(yùn)營的需求,電信公司涉及的最主要的三個(gè)主題是:
客戶發(fā)展收益分析呼叫特性分析
2.1數(shù)據(jù)倉庫設(shè)計(jì)(1)確定數(shù)據(jù)倉庫的主題2.1數(shù)據(jù)倉庫設(shè)計(jì)144(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——可用的數(shù)據(jù)例如,要完成客戶發(fā)展、收益分析、呼叫特性分析三個(gè)主題,下列三部分信息是必要的,即:客戶的基本信息表客戶的賬單信息表客戶的呼叫信息表2.1數(shù)據(jù)倉庫設(shè)計(jì)(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——可用的數(shù)據(jù)2.1數(shù)據(jù)倉庫設(shè)計(jì)145(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——粒度的確定在數(shù)據(jù)倉庫設(shè)計(jì)中,最重要的步驟是確定數(shù)據(jù)的粒度。單一粒度對于客戶基本信息表,由于它屬于增長較為緩慢的信息(隨著客戶數(shù)量的增長,客戶業(yè)務(wù)信息的變更表會(huì)增長),可以使用單一的數(shù)據(jù)粒度。
2.1數(shù)據(jù)倉庫設(shè)計(jì)(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——粒度的確定2.1數(shù)據(jù)倉庫設(shè)計(jì)146(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——OLAP模型的設(shè)計(jì)針對每一個(gè)主題確定其需要的維度和度量變量,然后為每一個(gè)主題定義關(guān)系模式,從而形成一個(gè)星型結(jié)構(gòu),在這個(gè)星型結(jié)構(gòu)的基礎(chǔ)上,可以生成多維數(shù)據(jù)表,建立多維數(shù)據(jù)庫。以客戶信息主題為例,客戶信息主題的維度設(shè)計(jì)書如下:
2.1數(shù)據(jù)倉庫設(shè)計(jì)(2)數(shù)據(jù)倉庫模型的設(shè)計(jì)——OLAP模型的設(shè)計(jì)2.1數(shù)147數(shù)據(jù)提取-轉(zhuǎn)換-加載隨著應(yīng)用和系統(tǒng)環(huán)境的不同而具有不同的特點(diǎn)。一般而言,總包括下面的處理過程:a.預(yù)處理正式開始作業(yè)之前的準(zhǔn)備工作,包括清空工作區(qū)、檢查過渡/準(zhǔn)備區(qū)。如果需要直接訪問操作型數(shù)據(jù)源系統(tǒng)時(shí),要檢查遠(yuǎn)程數(shù)據(jù)庫服務(wù)器狀態(tài),并核對目標(biāo)區(qū)數(shù)據(jù)加載狀態(tài),以核算出加載作業(yè)的參數(shù),如加載數(shù)據(jù)的時(shí)間間隔和范圍(24小時(shí)的數(shù)據(jù),還是前3天的數(shù)據(jù))。2.2ETL設(shè)計(jì)數(shù)據(jù)提取-轉(zhuǎn)換-加載隨著應(yīng)用和系統(tǒng)環(huán)148b.啟動(dòng)數(shù)據(jù)加載的批作業(yè)c.因?yàn)榫S度表有事實(shí)表所參照的主鍵,所以要先完成對維表的加載,生成維表主鍵,并作為以后加載事實(shí)表所需要的外鍵。在加載維表中,有時(shí)要處理好緩慢變化的維的問題,并可能涉及到版號(hào)的處理問題。2.2ETL設(shè)計(jì)2.2ETL設(shè)計(jì)149d.加載事實(shí)表這中間也涉及到鍵查找的問題,即從有關(guān)維表中找到相應(yīng)的主鍵,并以此作事實(shí)表的外鍵。e.事實(shí)表加載完成后,再對總計(jì)方陣體系進(jìn)行刷新,以保障總計(jì)方陣與它的基礎(chǔ)數(shù)據(jù)同步。f.設(shè)計(jì)具有完善的出錯(cuò)處理機(jī)制和作業(yè)控制日志系統(tǒng),用以監(jiān)測和協(xié)調(diào)整個(gè)加載的過程。
2.2ETL設(shè)計(jì)2.2ETL設(shè)計(jì)150加載數(shù)據(jù)到數(shù)據(jù)倉庫的具體步驟
設(shè)定數(shù)據(jù)庫和數(shù)據(jù)源建立多維數(shù)據(jù)集設(shè)計(jì)存儲(chǔ)和處理多維數(shù)據(jù)集為多維數(shù)據(jù)集創(chuàng)立分區(qū)2.3數(shù)據(jù)倉庫實(shí)現(xiàn)加載數(shù)據(jù)到數(shù)據(jù)倉庫的具體步驟2.3數(shù)據(jù)倉庫實(shí)現(xiàn)151企業(yè)級(jí)數(shù)據(jù)倉庫的實(shí)現(xiàn)途徑從建造某個(gè)部門特定的數(shù)據(jù)集市開始,逐步擴(kuò)充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個(gè)能夠完全反映企業(yè)全貌的企業(yè)級(jí)數(shù)據(jù)倉庫;從一開始就從企業(yè)的整體來考慮數(shù)據(jù)倉庫的主題和實(shí)施。
2.3數(shù)據(jù)倉庫實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)倉庫的實(shí)現(xiàn)途徑2.3數(shù)據(jù)倉庫實(shí)現(xiàn)152第一種方法類似于軟件工程中“自底向上”的方法,投資少、周期短且易于見到成果,但由于該設(shè)計(jì)開始時(shí)是以特定的部門級(jí)主題為框架的,向其他的主題和部門擴(kuò)充往往比較困難;第二種方法與第一種相反,即“自頂向下”的方法,投資大、周期長。實(shí)際中大多采用第一種方法。
2.3數(shù)據(jù)倉庫實(shí)現(xiàn)第一種方法類似于軟件工程中“自底向上”的方法,投1533數(shù)據(jù)倉庫實(shí)例3.1
實(shí)例一3.2實(shí)例二3數(shù)據(jù)倉庫實(shí)例1544OLAP和OLAM4.1
OLAP4.2OLAM4OLAP和OLAM155OLAP定義60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端客戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫的簡單查詢也不能滿足終端客戶分析的要求。客戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能獲得結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。4.1OLAPOLAP定義4.1OLAP156OLAP(On-LineAnalysisProcessing)定義是數(shù)據(jù)倉庫上的分析展示工具,它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上。
OLAP的主要特點(diǎn)一是在線性(OnLine),體現(xiàn)為對用戶請求的快速響應(yīng)和交互式操作;二是多維分析(Multi_Analysis),這是OLAP技術(shù)的核心所在。
4.1OLAPOLAP(On-LineAnalysisProcessi157根據(jù)對數(shù)據(jù)的組織方式的不同,OLAP分為兩種:
基于多維數(shù)據(jù)庫的OLAP(MD-OLAP)基于關(guān)系數(shù)據(jù)庫的OLAP(ROLAP)前者響應(yīng)速度快、執(zhí)行效率高,但源于結(jié)構(gòu)的局限,靈活性不高。與之相比,后者由于建立在大量現(xiàn)有數(shù)據(jù)庫(數(shù)據(jù)倉庫)的基礎(chǔ)上,靈活性、擴(kuò)展性要高的多,并且支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者。因此,雖然在響應(yīng)速度、執(zhí)行效率上差一點(diǎn),仍然得到了廣泛應(yīng)用。現(xiàn)有的OLAP工具大多基于后者。
4.1OLAP根據(jù)對數(shù)據(jù)的組織方式的不同,OLAP分為兩種:4.1OL158將OLAP與數(shù)據(jù)挖掘結(jié)合起來,發(fā)展出一種為數(shù)據(jù)挖掘服務(wù)的具有新型OLAP的數(shù)據(jù)倉庫,將更能適應(yīng)實(shí)際的需要。OLAM(OnLineAnalyticalMining,聯(lián)機(jī)分析挖掘)正是這種結(jié)合的產(chǎn)物。
4.2OLAM將OLAP與數(shù)據(jù)挖掘結(jié)合起來,發(fā)展出1595數(shù)據(jù)挖掘基礎(chǔ)5.1
概述5.2實(shí)現(xiàn)5.3工具5數(shù)據(jù)挖掘基礎(chǔ)160二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長—據(jù)估計(jì),每二十個(gè)月將增加一倍。許多組織機(jī)構(gòu)的IT系統(tǒng)中都收集了大量的數(shù)據(jù)(信息)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識(shí),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示出強(qiáng)大的生命力。
5.1概述二十世紀(jì)末以來,全球信息量以驚人的速度急劇增長—161數(shù)據(jù)挖掘是八十年代投資AI研究項(xiàng)目失敗后,AI轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。它是一個(gè)新興的,面向商業(yè)應(yīng)用的AI研究。1989年8月,在美國底特律召開的第11屆國際人工智能聯(lián)合會(huì)議的專題討論會(huì)上首次出現(xiàn)數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)這一術(shù)語。隨后,在1991年、1993年
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年電子產(chǎn)品回收市場潛力及競爭格局分析報(bào)告
- 聚焦2025:在線教育平臺(tái)用戶體驗(yàn)優(yōu)化關(guān)鍵要素滿意度調(diào)研報(bào)告
- 2025年農(nóng)業(yè)科技成果轉(zhuǎn)化與農(nóng)業(yè)科技創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)機(jī)制報(bào)告
- 擁抱科技-上市券商2025年一季報(bào)梳理分析
- 師德師風(fēng)個(gè)人工作總結(jié)(3篇)
- 中國醫(yī)院住院部管理制度
- 南陽加油站油品管理制度
- 公司快遞費(fèi)報(bào)銷管理制度
- 大健康公司財(cái)務(wù)管理制度
- 日間照料午餐管理制度
- 食品許可證初級(jí)考試試題及答案
- 執(zhí)業(yè)醫(yī)師考試重要法律法規(guī)試題及答案
- 2025《銀行專業(yè)實(shí)務(wù)(銀行管理)》初級(jí)銀行人員高分必會(huì)試題庫1000題-單選400題
- 咖啡師考試試題及答案
- 煙花爆竹經(jīng)營安全培訓(xùn)
- 2025年人教版新教材數(shù)學(xué)一年級(jí)下冊期末復(fù)習(xí)計(jì)劃
- 2024版壓力容器設(shè)計(jì)審核機(jī)考題庫-多選3-2
- 2025年國防教育課件
- 2025-2030中國醫(yī)療美容行業(yè)市場深度調(diào)研及競爭格局與投資研究報(bào)告
- 安徽省合肥市蜀山區(qū)2025年數(shù)學(xué)五下期末監(jiān)測試題含答案
- 貴州國企招聘2024貴州貴安發(fā)展集團(tuán)有限公司招聘68人筆試參考題庫附帶答案詳解
評(píng)論
0/150
提交評(píng)論