




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第5章
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持第5章15.1數(shù)據(jù)倉庫的基本原理數(shù)據(jù)倉庫的興起1.“數(shù)據(jù)太多,信息不足”的現(xiàn)狀2.異構(gòu)環(huán)境的數(shù)據(jù)源據(jù)美國(guó)《幸?!冯s志所列的全球2000家大公司中已有90%將Internet網(wǎng)絡(luò)和數(shù)據(jù)倉庫這兩項(xiàng)技術(shù)列入企業(yè)計(jì)劃。數(shù)據(jù)倉庫是1995年開始盛行起來的。5.1數(shù)據(jù)倉庫的基本原理數(shù)據(jù)倉庫的興起25.1.1數(shù)據(jù)倉庫的概念(1)W.H.Inmon在《建立數(shù)據(jù)倉庫》一書中,對(duì)數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的,不同時(shí)間的數(shù)據(jù)集合,用于支持經(jīng)營(yíng)管理中決策制定過程。5.1.1數(shù)據(jù)倉庫的概念(1)W.H.Inmon在31、數(shù)據(jù)倉庫的概念(2)SAS軟件研究所定義:數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過通暢、合理、全面的信息管理,達(dá)到有效的決策支持。1、數(shù)據(jù)倉庫的概念(2)SAS軟件研究所定義:41、數(shù)據(jù)倉庫的概念
傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫操作型處理,是指對(duì)數(shù)據(jù)庫聯(lián)機(jī)進(jìn)行日常操作,即對(duì)一個(gè)或一組記錄的查詢和修改,主要為企業(yè)特定的應(yīng)用服務(wù)的。用戶關(guān)心的是響應(yīng)時(shí)間,數(shù)據(jù)的安全性和完整性。數(shù)據(jù)倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(tǒng)(DSS)的基礎(chǔ)。1、數(shù)據(jù)倉庫的概念傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫操作型5操作型數(shù)據(jù)(DB數(shù)據(jù))與分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:操作型數(shù)據(jù)(DB數(shù)據(jù))與62、數(shù)據(jù)倉庫特點(diǎn)(1)數(shù)據(jù)倉庫是面向主題的主題是數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。例如,銀行的數(shù)據(jù)倉庫的主題:客戶DW的客戶數(shù)據(jù)來源:從銀行儲(chǔ)蓄DB、信用卡DB、貸款DB等三個(gè)DB中抽取同一客戶的數(shù)據(jù)整理而成。在DW中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款。2、數(shù)據(jù)倉庫特點(diǎn)(1)數(shù)據(jù)倉庫是面向主題的7面向主題汽車人壽健康意外傷亡操作性環(huán)境應(yīng)用顧客保險(xiǎn)單保險(xiǎn)費(fèi)索賠數(shù)據(jù)倉庫主題面向主題汽車操作性環(huán)境應(yīng)用顧客數(shù)據(jù)倉庫主題82、數(shù)據(jù)倉庫特點(diǎn)(2)數(shù)據(jù)倉庫是集成的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對(duì)不同的數(shù)據(jù)來源進(jìn)行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長(zhǎng)不一致等。將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。2、數(shù)據(jù)倉庫特點(diǎn)(2)數(shù)據(jù)倉庫是集成的92.2集成
數(shù)據(jù)庫
應(yīng)用Am,f應(yīng)用B1,0應(yīng)用Cx,y應(yīng)用D男,女
數(shù)據(jù)倉庫
m,f編碼應(yīng)用A管道cm應(yīng)用B管道inches應(yīng)用C管道m(xù)cf應(yīng)用D管道yds管道cm屬性度量2.2集成數(shù)據(jù)庫數(shù)據(jù)倉庫編碼應(yīng)用A管道cm10應(yīng)用A描述應(yīng)用B描述應(yīng)用C描述應(yīng)用D描述應(yīng)用Achar(10)應(yīng)用Bdecfixed(9,2)應(yīng)用Cpic‘9999999’應(yīng)用Dchar(12)多重信息源?描述char(12)沖突的鍵碼集成應(yīng)用A描述多重信息源?描述沖突的鍵碼集成112、數(shù)據(jù)倉庫特點(diǎn)(3)數(shù)據(jù)倉庫是穩(wěn)定/非易失的數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉庫后是極少或根本不更新的。2、數(shù)據(jù)倉庫特點(diǎn)(3)數(shù)據(jù)倉庫是穩(wěn)定/非易失的12非易失性插入刪除插入修改刪除訪問修改訪問數(shù)據(jù)的逐個(gè)記錄方式處理數(shù)據(jù)的批量載入/訪問數(shù)據(jù)庫數(shù)據(jù)倉庫非易失性插入刪除插入修改刪除訪問修改訪問數(shù)據(jù)的逐個(gè)記錄方式處132、數(shù)據(jù)倉庫特點(diǎn)(4)數(shù)據(jù)倉庫是隨時(shí)間變化的數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時(shí)限在5~10年,故數(shù)據(jù)的鍵碼包含時(shí)間項(xiàng),標(biāo)明數(shù)據(jù)的歷史時(shí)期,這適合DSS進(jìn)行時(shí)間趨勢(shì)分析。而數(shù)據(jù)庫只包含當(dāng)前數(shù)據(jù),即存取某一時(shí)間的正確的有效的數(shù)據(jù)。2、數(shù)據(jù)倉庫特點(diǎn)142.4隨時(shí)間變化數(shù)據(jù)庫數(shù)據(jù)倉庫時(shí)間期限:當(dāng)前到60—90天記錄更新鍵碼結(jié)構(gòu)可能包括也可能不包括時(shí)間元素時(shí)間期限:5—10年數(shù)據(jù)的復(fù)雜快照鍵碼結(jié)構(gòu)包括時(shí)間元素2.4隨時(shí)間變化數(shù)據(jù)庫數(shù)據(jù)倉庫時(shí)間期限:當(dāng)前到60—90天152、數(shù)據(jù)倉庫特點(diǎn)
(5)DW中數(shù)據(jù)量大。大型DW是一個(gè)TB(1000GB)級(jí)數(shù)據(jù)庫問題(一般為10GB級(jí)相當(dāng)于一般數(shù)據(jù)庫100MB的100倍)需要一個(gè)巨大的硬件平臺(tái)需要一個(gè)并行的數(shù)據(jù)庫系統(tǒng)最好的數(shù)據(jù)倉庫是大的和昂貴的。2、數(shù)據(jù)倉庫特點(diǎn)(5)DW中數(shù)據(jù)量大。162、數(shù)據(jù)倉庫特點(diǎn)
(6)是信息的概括和聚集。
2、數(shù)據(jù)倉庫特點(diǎn)(6)是信息的概括和聚集。17操作性數(shù)據(jù)倉庫JJones女1945年7月20日。。。。。JJones去年有兩張罰單一次大事故。。。。。JJonesMain大街123號(hào)已婚。。。。。JJones兩個(gè)孩子高血壓。。。。。人壽保險(xiǎn)汽車保險(xiǎn)房產(chǎn)保險(xiǎn)健康保險(xiǎn)JJones女1945年7月20日出生去年兩張罰單一次大事故已婚兩個(gè)孩子高血壓。。。。。。顧客操作性數(shù)據(jù)倉庫JJonesJJonesJJones182、數(shù)據(jù)倉庫特點(diǎn)
(7)對(duì)計(jì)算機(jī)軟硬件要求較高:需要一巨大硬件平臺(tái)和并行計(jì)算的數(shù)據(jù)庫系統(tǒng)。
2、數(shù)據(jù)倉庫特點(diǎn)(7)對(duì)計(jì)算機(jī)軟硬件要求較高:需要一195.1.2數(shù)據(jù)倉庫中的數(shù)據(jù)組織1數(shù)據(jù)的粒度2數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)3數(shù)據(jù)的分割4數(shù)據(jù)倉庫的數(shù)據(jù)組織形式5數(shù)據(jù)倉庫的數(shù)據(jù)組織模式6數(shù)據(jù)的追加5.1.2數(shù)據(jù)倉庫中的數(shù)據(jù)組織1數(shù)據(jù)的粒度201粒度粒度——是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或總合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越?。?/p>
細(xì)化程度越低,粒度級(jí)就越大。粒度——細(xì)節(jié)的級(jí)別粒度的劃分決定了數(shù)據(jù)倉庫中數(shù)據(jù)量的大小和查詢的詳細(xì)程度。多重粒度1粒度粒度——是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或總合21粒度的一個(gè)例子高細(xì)化低細(xì)化每月200個(gè)記錄每月40,000個(gè)字節(jié)每月一個(gè)記錄每月200個(gè)字節(jié)通過檢索可以回答無細(xì)節(jié)無法回答詢問某一電話的細(xì)節(jié)粒度的一個(gè)例子高細(xì)化低細(xì)化每月200個(gè)記錄每月一個(gè)記錄通過檢22
近期基本數(shù)據(jù):是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。
歷史基本數(shù)據(jù):近期基本數(shù)據(jù)隨時(shí)間的推移,由數(shù)據(jù)倉庫的時(shí)間控制機(jī)制轉(zhuǎn)為歷史基本數(shù)據(jù)。
輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時(shí)間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進(jìn)行綜合。
高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準(zhǔn)決策數(shù)據(jù)。2數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)近期基本數(shù)據(jù):是最近時(shí)期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉232數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)(數(shù)據(jù)集市)銷售細(xì)節(jié)級(jí)2000-2001操作型轉(zhuǎn)換早期細(xì)節(jié)級(jí)每月銷售1994-2001每周銷售1994-2001當(dāng)前細(xì)節(jié)級(jí)銷售細(xì)節(jié)級(jí)1994-19992數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)銷售細(xì)節(jié)243分割分割——將當(dāng)前細(xì)節(jié)數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理效率。分片——數(shù)據(jù)分割后的獨(dú)立單元。數(shù)據(jù)的分割提高了數(shù)據(jù)管理的靈活性
重構(gòu)、索引、重組、恢復(fù)、監(jiān)控分割的標(biāo)準(zhǔn):日期、地域、業(yè)務(wù)領(lǐng)域。3分割分割——將當(dāng)前細(xì)節(jié)數(shù)據(jù)分散到各自的物理單元中去以便能25分割的一個(gè)例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保險(xiǎn)生命保險(xiǎn)健康保險(xiǎn)分割的一個(gè)例子分片9分片8分片72001分片6分片5分片42264數(shù)據(jù)倉庫的數(shù)據(jù)組織形式簡(jiǎn)單堆積數(shù)據(jù)輪轉(zhuǎn)綜合數(shù)據(jù)簡(jiǎn)化直接數(shù)據(jù)連續(xù)數(shù)據(jù)4數(shù)據(jù)倉庫的數(shù)據(jù)組織形式簡(jiǎn)單堆積數(shù)據(jù)27簡(jiǎn)單堆積文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………簡(jiǎn)單堆積文件1月1日28輪轉(zhuǎn)綜合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月
………………輪轉(zhuǎn)綜合文件星期一29簡(jiǎn)化直接文件數(shù)據(jù)庫快照姓名顧客號(hào)地址張平C960100北京王珂C960101上海劉輝C960102天津李強(qiáng)C960103成都
...
一月份顧客表操作性數(shù)據(jù)生成簡(jiǎn)化直接文件簡(jiǎn)化直接文件數(shù)據(jù)庫快照姓名顧客號(hào)地址一月30連續(xù)文件姓名顧客號(hào)地址張平C020100北京王珂C020101上海張順C020102天津李強(qiáng)C020103成都姓名顧客號(hào)地址張平C020100北京王珂C020101上海張順C020101廣州李強(qiáng)C020103成都劉誠C020105杭州姓名顧客號(hào)日期地址張平C0201001-2月北京王珂C0201011-2月上海張順C0201031月天津張順C0201032月廣州李強(qiáng)C0201031-2月成都劉誠C0201052月杭州1月份顧客表2月份顧客表1-2月份顧客表連續(xù)文件姓名顧客號(hào)地址姓名顧客31元數(shù)據(jù)(Metadata)元數(shù)據(jù)——關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、碼、索引等。元數(shù)據(jù)的內(nèi)容不僅為數(shù)據(jù)倉庫的創(chuàng)建提供必要的信息、描述和定義,還為DSS分析人員訪問數(shù)據(jù)倉庫提供直接的或輔助的信息。元數(shù)據(jù)(Metadata)元數(shù)據(jù)——關(guān)于數(shù)據(jù)的數(shù)據(jù),它描述了32數(shù)據(jù)倉庫中元數(shù)據(jù)必須包含的內(nèi)容數(shù)據(jù)倉庫的主題描述:
主題名、主體的公共碼鍵、有關(guān)描述信息等外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的描述:
外部數(shù)據(jù)源名、存儲(chǔ)地點(diǎn)、存儲(chǔ)內(nèi)容簡(jiǎn)述記錄系統(tǒng)定義:
主題名、屬性名、數(shù)據(jù)源系統(tǒng)、源表名、源屬性名邏輯模型的定義:
關(guān)系名、屬性1、屬性2……屬性n數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的轉(zhuǎn)換規(guī)則數(shù)據(jù)的抽取歷史粒度的定義數(shù)據(jù)分割的定義廣義索引:廣義索引名,屬性1、屬性2……屬性n有關(guān)存儲(chǔ)路徑和結(jié)構(gòu)的描述數(shù)據(jù)倉庫中元數(shù)據(jù)必須包含的內(nèi)容數(shù)據(jù)倉庫的主題描述:
33它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是是對(duì)不同平臺(tái)上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:
?數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項(xiàng)及數(shù)據(jù)類型。
?所有數(shù)據(jù)項(xiàng)的業(yè)務(wù)定義。
?每個(gè)數(shù)據(jù)項(xiàng)更新的頻率,以及由誰或那個(gè)過程更新的說明。?每個(gè)數(shù)據(jù)項(xiàng)的有效值。(1)關(guān)于數(shù)據(jù)源的元數(shù)據(jù)它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是是34
數(shù)據(jù)倉庫的數(shù)據(jù)模型是星型模型。通常企業(yè)數(shù)據(jù)模型被用作建立倉庫數(shù)據(jù)模型的起始點(diǎn),再對(duì)模型加以修改和變換。(2)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)(2)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)35
這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。當(dāng)數(shù)據(jù)源中的一個(gè)數(shù)據(jù)項(xiàng)與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項(xiàng)發(fā)生的任何變換或變動(dòng)。即用元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項(xiàng)是從哪個(gè)特定的數(shù)據(jù)源填充的,經(jīng)過那些轉(zhuǎn)換,變換和加載過程。(3)關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映36這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。數(shù)據(jù)倉庫的用戶最關(guān)心的是兩類元數(shù)據(jù):
(1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們從哪里來。即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容。(2)元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。如果某個(gè)查詢能夠滿足他們的需求,或者與他們的愿望相似,他們就可以再次使用那些查詢而不必從頭開始編程。關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題。(4)關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。(4)關(guān)于375數(shù)據(jù)倉庫的數(shù)據(jù)組織模式星型模式(starschema)
雪花模式(snowflakeschema)
混合模式事實(shí)表維量維表中間有一個(gè)單一表,沿半徑向外連接到多個(gè)表是星型模式的擴(kuò)展,每一個(gè)點(diǎn)都沿半徑向外連接到多個(gè)點(diǎn)5數(shù)據(jù)倉庫的數(shù)據(jù)組織模式星型模式(starschema)38星型模式產(chǎn)品標(biāo)識(shí)符類標(biāo)識(shí)符大類標(biāo)識(shí)符產(chǎn)品名類名大類名現(xiàn)貨存量銷售表產(chǎn)品標(biāo)識(shí)符商店標(biāo)識(shí)符日期標(biāo)識(shí)符單價(jià)銷售金額日期表日期標(biāo)識(shí)符日月季年商店標(biāo)識(shí)符市名省名國(guó)名洲名商店表產(chǎn)品表星型模式產(chǎn)品標(biāo)識(shí)符銷售表產(chǎn)品標(biāo)識(shí)符日期表日期標(biāo)識(shí)符商店標(biāo)識(shí)符39雪花模式銷售表產(chǎn)品標(biāo)識(shí)符商店標(biāo)識(shí)符日期標(biāo)識(shí)符單價(jià)銷售金額日期表日期標(biāo)識(shí)符日月月季月表季年季表產(chǎn)品表產(chǎn)品標(biāo)識(shí)符類標(biāo)識(shí)符產(chǎn)品名現(xiàn)貨存量類表類標(biāo)識(shí)符大類標(biāo)識(shí)符類名大類表大類標(biāo)識(shí)符大類名商店表商店標(biāo)識(shí)符市名市名市名省名市表省名國(guó)名省表國(guó)名洲名國(guó)表雪花模式銷售表產(chǎn)品標(biāo)識(shí)符日期表日期標(biāo)識(shí)符月月表季季表產(chǎn)品表產(chǎn)406數(shù)據(jù)追加時(shí)標(biāo)方法對(duì)新插入或更新的數(shù)據(jù)記錄,加入更新時(shí)的時(shí)標(biāo),掃描整個(gè)數(shù)據(jù)庫。DELTA文件由應(yīng)用生成的,記錄了應(yīng)用所改變的所有內(nèi)容。DELTA文件的應(yīng)用并不普遍。前后映象文件對(duì)比占用大量資源。日志文件是DB的固有機(jī)制,不會(huì)影響到OLTP的性能。數(shù)據(jù)冗余。數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程。6數(shù)據(jù)追加時(shí)標(biāo)方法對(duì)新插入或更新的數(shù)據(jù)記錄,加入更新時(shí)41數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)庫是代價(jià)很高、時(shí)間較長(zhǎng)的大項(xiàng)目。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運(yùn)產(chǎn)生。目前,全世界對(duì)數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。5.1.3數(shù)據(jù)集市(DataMarts)5.1.3數(shù)據(jù)集市(DataMarts)42數(shù)據(jù)集市(DataMarts)是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。DataMarts是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對(duì)某個(gè)應(yīng)用或者具體部門級(jí)的應(yīng)用,支持用戶獲得競(jìng)爭(zhēng)優(yōu)勢(shì)或者找到進(jìn)入新市場(chǎng)的具體解決方案。數(shù)據(jù)集市概念數(shù)據(jù)集市概念43獨(dú)立數(shù)據(jù)集市(IndependentDataMart)從屬數(shù)據(jù)集市(DependentDataMart)數(shù)據(jù)集市的種類獨(dú)立數(shù)據(jù)集市(IndependentDataMart)數(shù)44數(shù)據(jù)源數(shù)據(jù)源分析工具分析工具獨(dú)立數(shù)據(jù)集市兩種數(shù)據(jù)集市分析工具中央數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)源從屬數(shù)據(jù)集市分析工具分析工具數(shù)據(jù)源數(shù)據(jù)源分析工具分析工具獨(dú)立數(shù)據(jù)集市兩種數(shù)據(jù)集市分析工具45
1、規(guī)模是小的2、特定的應(yīng)用3、面向部門4、由業(yè)務(wù)部門定義,設(shè)計(jì)和開發(fā)5、由業(yè)務(wù)部門管理和維護(hù)6、快速實(shí)現(xiàn)7、購買較便宜8、投資快速回收9、工具集的緊密集成10、更詳細(xì)的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集11、可升級(jí)到完整的數(shù)據(jù)倉庫數(shù)據(jù)集市的特性1、規(guī)模是小的數(shù)據(jù)集市的特性46(1)數(shù)據(jù)倉庫是基于整個(gè)企業(yè)的數(shù)據(jù)模型建立的,是面向企業(yè)范圍內(nèi)的主題;而數(shù)據(jù)集市是按照某一特定部門的數(shù)據(jù)模型建立的;(2)部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),可能無關(guān)聯(lián);(3)數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型,而大型數(shù)據(jù)倉庫的組織采用第三范式。數(shù)據(jù)集市與數(shù)據(jù)倉庫的差別(1)數(shù)據(jù)倉庫是基于整個(gè)企業(yè)的數(shù)據(jù)模型建立的,是面向企業(yè)475.2數(shù)據(jù)倉庫系統(tǒng)
5.2.1數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成。5.2數(shù)據(jù)倉庫系統(tǒng)5.2.1數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)481、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分
用于定義和建立數(shù)據(jù)倉庫系統(tǒng)。它包括:(1)設(shè)計(jì)和定義數(shù)據(jù)倉庫的數(shù)據(jù)庫(2)定義數(shù)據(jù)來源(3)確定從源數(shù)據(jù)向數(shù)據(jù)倉庫復(fù)制數(shù)據(jù)時(shí)的清理和增強(qiáng)規(guī)則(2)數(shù)據(jù)獲取部分
該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件的規(guī)則,抽取、轉(zhuǎn)化和裝載數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫。
1、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分49(3)管理部分它用于管理數(shù)據(jù)倉庫的工作,包括:(1)對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的維護(hù)(2)把倉庫數(shù)據(jù)送出給分散的倉庫服務(wù)器或DSS用戶(3)對(duì)倉庫數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等處理工作1、數(shù)據(jù)倉庫管理系統(tǒng)(3)管理部分1、數(shù)據(jù)倉庫管理系統(tǒng)50(4)信息目錄部件(元數(shù)據(jù))
數(shù)據(jù)倉庫的目錄數(shù)據(jù)是元數(shù)據(jù),由三部分組成:
技術(shù)目錄:由定義部件生成,關(guān)于數(shù)據(jù)源、目標(biāo)、清理規(guī)則、變換規(guī)則以及數(shù)據(jù)源和倉庫之間的映象信息。
業(yè)務(wù)目錄:由倉庫管理員生成,關(guān)于倉庫數(shù)據(jù)的來源及當(dāng)前值;預(yù)定義的查詢和報(bào)表細(xì)節(jié);合法性要求等。
信息引導(dǎo)器:使用戶容易訪問倉庫數(shù)據(jù)。利用固定查詢或建立新的查詢,生成暫時(shí)的或永久的倉庫數(shù)據(jù)集合的能力等。(5)DBMS部件
數(shù)據(jù)倉庫的存儲(chǔ)形式仍為關(guān)系型數(shù)據(jù)庫,因此需要利用DBMS。1、數(shù)據(jù)倉庫管理系統(tǒng)(4)信息目錄部件(元數(shù)據(jù))1、數(shù)據(jù)倉庫管理系統(tǒng)51分析工具集分兩類工具:(1)查詢工具數(shù)據(jù)倉庫的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而是指對(duì)分析要求的查詢。一般包含:
可視化工具:以圖形化方式展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu),關(guān)系以及動(dòng)態(tài)性。2、數(shù)據(jù)倉庫工具集分析工具集分兩類工具:2、數(shù)據(jù)倉庫工具集52多維分析工具(OLAP工具):通過對(duì)信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對(duì)數(shù)據(jù)進(jìn)行深入的分析和觀察。多維數(shù)據(jù)的每一維代表對(duì)數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、地域、業(yè)務(wù)等。2、數(shù)據(jù)倉庫工具集2、數(shù)據(jù)倉庫工具集53(2)數(shù)據(jù)挖掘工具
從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利用數(shù)據(jù)挖掘(DataMining)工具。2、數(shù)據(jù)倉庫工具集(2)數(shù)據(jù)挖掘工具2、數(shù)據(jù)倉庫工具集543、數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)數(shù)據(jù)倉庫應(yīng)用是一個(gè)典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式。數(shù)據(jù)倉庫采用服務(wù)器結(jié)構(gòu),客戶端所做的工作有:客戶交互、格式化查詢、結(jié)果顯示、報(bào)表生成等。服務(wù)器端完成各種輔助決策的SQL查詢、復(fù)雜的計(jì)算和各類綜合功能等?,F(xiàn)在,越來越普通的一種形式是三層C/S結(jié)構(gòu)形式,即在客戶與數(shù)據(jù)倉庫服務(wù)器之間增加一個(gè)多維數(shù)據(jù)分析(OLAP)服務(wù)器。3、數(shù)據(jù)倉庫的運(yùn)行結(jié)構(gòu)數(shù)據(jù)倉庫應(yīng)用是一個(gè)典型的客戶/55
OLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工作,集中和簡(jiǎn)化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。這種結(jié)構(gòu)形式工作效率更高。三層C/S結(jié)構(gòu)OLAP服務(wù)器將加強(qiáng)和規(guī)范化決策支持的服務(wù)工56
數(shù)據(jù)倉庫存儲(chǔ)采用多維數(shù)據(jù)模型。維就是相同類數(shù)據(jù)的集合,商店、時(shí)間和產(chǎn)品都是維。各個(gè)商店的集合是一維,時(shí)間的集合是一維,商品的集合是一維。每一個(gè)商店、每一段時(shí)間、每一種商品就是某一維的一個(gè)成員。每一個(gè)銷售事實(shí)由一個(gè)特定的商品、一個(gè)特定的時(shí)間、一個(gè)特定的商品組成。兩維表,如通常的電子表格。三維構(gòu)成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。
5.2.2數(shù)據(jù)倉庫的存儲(chǔ)數(shù)據(jù)倉庫存儲(chǔ)采用多維數(shù)據(jù)模型。5.2.257
聯(lián)機(jī)分析處理(OnLineAnalyticalProcessing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。在數(shù)據(jù)倉庫系統(tǒng)中,聯(lián)機(jī)分析處理是重要的數(shù)據(jù)分析工具。OLAP的基本思想是從多方面和多角度以多維的形式來觀察企業(yè)的狀態(tài)和了解企業(yè)的變化。5.3聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理(OnLineAnalytic585.3.1基本概念
OLAP是在OLTP的基礎(chǔ)上發(fā)展起來的。
OLTP是以數(shù)據(jù)庫為基礎(chǔ)的,面對(duì)的是操作人員和低層管理人員,對(duì)基本數(shù)據(jù)的查詢和增、刪、改等進(jìn)行處理。
OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。它有兩個(gè)特點(diǎn):一是在線性(OnLine),由客戶機(jī)/服務(wù)器這種體系結(jié)構(gòu)來完成的;二是多維分析,這也是OLAP的核心所在。5.3.1基本概念OLAP是在OLTP的基礎(chǔ)上發(fā)591、OLAP的定義聯(lián)機(jī)分析處理是是一種軟件技術(shù),他使分析人員能夠迅速、一致、交互地從各個(gè)方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的。聯(lián)機(jī)分析技術(shù)是共享多維信息的快速分析。1、OLAP的定義聯(lián)機(jī)分析處理是是一種軟件技術(shù),他使分析人60一個(gè)3維的模型,3個(gè)維為:部門,時(shí)間,銷售。三維立方體,三維表OLAP實(shí)例時(shí)間部門銷售19981999汽車家具服裝
銷售量利潤(rùn)增長(zhǎng)%一個(gè)3維的模型,OLAP實(shí)例時(shí)間部門銷售1998161它體現(xiàn)了四個(gè)特征:(1)快速性:用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。(2)可分析性:OLAP系統(tǒng)應(yīng)能處理任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:系統(tǒng)必須提供對(duì)數(shù)據(jù)分析的多維視圖和分析。(4)信息性:OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量的信息。
它體現(xiàn)了四個(gè)特征62
1993年,E.F.Codd提出OLAP的12條準(zhǔn)則,其主要的準(zhǔn)則有:多維數(shù)據(jù)分析;客戶/服務(wù)器結(jié)構(gòu);多用戶支持;一致的報(bào)表性能等。
2、OLAP準(zhǔn)則
1993年,E.F.Codd提出OLAP的12條準(zhǔn)則631.多維概念視圖企業(yè)的數(shù)據(jù)空間本身就是多維的。因此OLAP的概念模型也應(yīng)是多維的。用戶可以對(duì)多維數(shù)據(jù)模型進(jìn)行切片、切塊、旋轉(zhuǎn)坐標(biāo)或進(jìn)行多維的聯(lián)合(概括和聚集)分析。1.多維概念視圖企業(yè)的數(shù)據(jù)空間本身就是多維的。因此OLAP的644.穩(wěn)定的報(bào)表性能
報(bào)表操作不應(yīng)隨維數(shù)增加而削弱,即當(dāng)數(shù)據(jù)維數(shù)和數(shù)據(jù)的綜合層次增加時(shí),提供的報(bào)表能力和響應(yīng)速度不應(yīng)該有明顯的降低。
4.穩(wěn)定的報(bào)表性能報(bào)表操作不應(yīng)隨維數(shù)增加而削弱,即655.客戶/服務(wù)器體系結(jié)構(gòu)
OLAP是建立在客戶/服務(wù)器體系結(jié)構(gòu)上的。要求多維數(shù)據(jù)庫服務(wù)器能夠被不同的應(yīng)用和工具所訪問。5.客戶/服務(wù)器體系結(jié)構(gòu)OLAP是建立在客戶/服務(wù)668.多用戶支持
當(dāng)多個(gè)用戶要在同一分析模式上并行工作,需要這些功能的支持。
11.靈活的報(bào)表生成
報(bào)表必須充分反映數(shù)據(jù)分析模型的多維特征,并可按用戶需要的方式來顯示它。8.多用戶支持67OLAP是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。
(1)變量:變量是數(shù)據(jù)的實(shí)際意義,即描述數(shù)據(jù)“是什么”。
(2)維:維是人們觀察數(shù)據(jù)的特定角度。如產(chǎn)品維、顧客維、時(shí)間維等。
(3)維的層次:數(shù)據(jù)的細(xì)節(jié)不同程度為維的層次。如日、月、季、年是時(shí)間維的層次。
(4)維成員:維的一個(gè)取值稱為該維的一個(gè)維成員。如“某年某月某日”是時(shí)間維的一個(gè)成員。
3、OLAP的基本概念
OLAP是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。3、OLAP68(5)多維數(shù)組:一個(gè)多維數(shù)組可以表示為:(維1,維2,……,維n,變量)
一個(gè)5維的結(jié)構(gòu),即(產(chǎn)品,地區(qū),時(shí)間,銷售渠道,銷售額)。(6)數(shù)據(jù)單元(單元格):多維數(shù)組的取值稱為數(shù)據(jù)單元。如:5維數(shù)據(jù)單元(牙膏,上海,1998年12月,批發(fā),銷售額為100000)。
3、OLAP的基本概念
(5)多維數(shù)組:一個(gè)多維數(shù)組可以表示為:3、OLAP的基本概69(1)OLTPOLTP是低層人員利用計(jì)算機(jī)網(wǎng)絡(luò)對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行查詢、增、刪、改等操作,以完成事務(wù)處理工作。OLTP利用數(shù)據(jù)庫快速地處理具體業(yè)務(wù)。OLTP應(yīng)用要求多個(gè)查詢并行。
4、OLAP與OLTP的關(guān)系與比較(1)OLTP4、OLAP與OLTP的關(guān)系與比較70(2)OLAPOLAP是高層人員對(duì)數(shù)據(jù)倉庫進(jìn)行信息分析處理。①存取大量的數(shù)據(jù)②包含聚集的數(shù)據(jù)③按層次對(duì)比不同時(shí)間周期的聚集數(shù)據(jù)④以不同的方式來表現(xiàn)數(shù)據(jù)⑤要包含數(shù)據(jù)元素之間的復(fù)雜的計(jì)算⑥能夠快速的響應(yīng)用戶的查詢
4、OLAP與OLTP的關(guān)系與比較(2)OLAP4、OLAP與OLTP的關(guān)系與比較71(3)OLAP與OLTP對(duì)比(對(duì)比表)OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對(duì)響應(yīng)時(shí)間要求高響應(yīng)時(shí)間合理用戶數(shù)量大用戶相對(duì)較少面向應(yīng)用,事務(wù)驅(qū)動(dòng)面向分析,分析驅(qū)動(dòng)OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當(dāng)72
5.3.2OLAP的數(shù)據(jù)組織
MOLAP和ROLAP是OLAP的兩種具體形式:
ROLAP是基于關(guān)系數(shù)據(jù)庫存儲(chǔ)方式建立的OLAP。多維數(shù)據(jù)映射成平面型的關(guān)系表。采用星型模型。5.3.2OLAP的數(shù)據(jù)組織MOL73MOLAP是基于多維數(shù)據(jù)庫存儲(chǔ)方式建立的OLAP;表現(xiàn)為“超立方”結(jié)構(gòu),類似于多維數(shù)組的結(jié)構(gòu)。在分析中,需要“旋轉(zhuǎn)”數(shù)據(jù)立方體以及“切片”、“切塊”等操作。MOLAP是基于多維數(shù)據(jù)庫存儲(chǔ)方式建立的OLAP;74MOLAP和ROLAP的對(duì)比表MOLAPROLAP固定維可變維維交叉計(jì)算多維視圖行級(jí)計(jì)算超大型數(shù)據(jù)庫讀-寫應(yīng)用維數(shù)據(jù)變化速度快數(shù)據(jù)集市數(shù)據(jù)倉庫MOLAP和ROLAP的對(duì)比表MOLAPROLAP固定維可變75例如,以“產(chǎn)品、城市、時(shí)間”三維數(shù)據(jù),如圖
5.3.3OLAP的決策支持;OLAP多維數(shù)據(jù)分析例如,以“產(chǎn)品、城市、時(shí)間”三維數(shù)據(jù),如圖5.3.3OL761、基本功能:切片和切塊
對(duì)三維數(shù)據(jù),通過“切片”,分別從城市和產(chǎn)品等不同的角度觀察銷售情況:
1、基本功能:切片和切塊對(duì)三維數(shù)據(jù),通過“切片”,77鉆取鉆?。豪纾?995年各部門銷售收入表如下:鉆取鉆?。豪?,1995年各部門銷售收入表如下:78對(duì)時(shí)間維進(jìn)行下鉆操作,獲得新表如下:鉆取(續(xù))對(duì)時(shí)間維進(jìn)行下鉆操作,獲得新表如下:鉆?。ɡm(xù))79旋轉(zhuǎn)前的數(shù)據(jù)旋轉(zhuǎn)旋轉(zhuǎn)前的數(shù)據(jù)旋轉(zhuǎn)80旋轉(zhuǎn)后的數(shù)據(jù)旋轉(zhuǎn)(續(xù))旋轉(zhuǎn)后的數(shù)據(jù)旋轉(zhuǎn)(續(xù))81OLAP的旋轉(zhuǎn)功能平面數(shù)據(jù)的坐標(biāo)軸轉(zhuǎn)換。12.78.5-4.38.9差量%-4432225402-299531102差量35000030000069000350000計(jì)劃30667732540266005381102現(xiàn)有其它汽車家具服裝銷售量1999OLAP的旋轉(zhuǎn)功能平面數(shù)據(jù)的坐標(biāo)軸轉(zhuǎn)換。12.78.5-4.8212.7-44322350000306677所有其他8.525402300000325402汽車-4.3-29956900066005家具8.931102350000381102服裝差量%差量計(jì)劃現(xiàn)有銷售量199912.7-44322350000306677所有其他8.5283旋轉(zhuǎn)后再切片旋轉(zhuǎn)后再切片842、廣義OLAP功能
1、基本代理操作
“代理”是一些智能性代理,當(dāng)系統(tǒng)處于某種特殊狀態(tài)時(shí)提醒分析員。
(1)示警報(bào)告
定義一些條件,一但條件滿足,系統(tǒng)會(huì)提醒分析員去做分析。如每日?qǐng)?bào)告完成或月定貨完成等通知分析員作分析。
(2)異常報(bào)告
當(dāng)超出邊界條件時(shí)提醒分析員。如銷售情況已超出預(yù)定義閾值的上限或下限時(shí)提醒分析員。2、廣義OLAP功能1、基本代理操作85
2、計(jì)算能力
計(jì)算引擎用于特定需求的計(jì)算或某種復(fù)雜計(jì)算。
3、模型計(jì)算
增加模型,如增加系統(tǒng)優(yōu)化、統(tǒng)計(jì)分析、趨勢(shì)分析等模型,以提高決策分析能力。2、廣義OLAP功能
2、計(jì)算能力2、廣義OLAP功能86
假設(shè)有一個(gè)5維數(shù)據(jù)模型,5個(gè)維分別為:商店,方案,部門,時(shí)間,銷售。
1.三維表查詢
在指定“商店=ALL,方案=現(xiàn)有”情況的三維表(行為部門,列為時(shí)間和銷售量)5.3.4、OLAP實(shí)例
假設(shè)有一個(gè)5維數(shù)據(jù)模型,5個(gè)維分別為:商店,方案87
19941995%增長(zhǎng)率銷售量利潤(rùn)增長(zhǎng)%銷售量利潤(rùn)增長(zhǎng)%銷售量利潤(rùn)增長(zhǎng)服裝234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽車375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三維表
19941995%增長(zhǎng)率銷售量利潤(rùn)增長(zhǎng)%銷售量利潤(rùn)增長(zhǎng)%銷88
19941995%增長(zhǎng)率銷售利潤(rùn)增長(zhǎng)%銷售利潤(rùn)增長(zhǎng)%銷售利潤(rùn)增長(zhǎng)汽車375,09822.4325,40227.2(13.2)21.4維修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,54547.55.38.2音樂63,7678.222,07114.2(63.4)7.32、向下鉆取對(duì)汽車部門向下鉆取出具體項(xiàng)目的銷售情況和利潤(rùn)增長(zhǎng)情況。
19941995%增長(zhǎng)率銷售利潤(rùn)增長(zhǎng)%銷售利潤(rùn)增長(zhǎng)%銷售利89
1995Sales服裝381,102家具66,005汽車325,402所有其它306,6773、切片表切片(Slice)操作是除去一些列或行不顯示
1995Sales服裝381,102家具66,005汽車390
1995銷售量現(xiàn)有計(jì)劃差量差量%服裝381,102350,00031.18.9家具66,00569,000(2,995)(4.3)汽車325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74、旋轉(zhuǎn)表這次旋轉(zhuǎn)操作得到1995年的交叉表方案為:現(xiàn)有、計(jì)劃、差量、差量%。
1995銷售量現(xiàn)有計(jì)劃差量差量%服裝381,102350,91
5.4.1數(shù)據(jù)倉庫的開發(fā)
1、數(shù)據(jù)倉庫規(guī)劃
①數(shù)據(jù)倉庫開發(fā)的范圍怎樣?
②要解決的業(yè)務(wù)問題是什么?③開發(fā)的數(shù)據(jù)倉庫的決策支持能力是什么?5.4數(shù)據(jù)倉庫的決策支持及實(shí)例5.4.1數(shù)據(jù)倉庫的開發(fā)5.4數(shù)據(jù)倉庫的決策支持及實(shí)例92決策者的需求:對(duì)信息的需求對(duì)業(yè)務(wù)過程的需求對(duì)數(shù)據(jù)訪問的需求2、定義體系結(jié)構(gòu)決策者的需求:2、定義體系結(jié)構(gòu)93確定體系結(jié)構(gòu)
(1)來源:數(shù)據(jù)應(yīng)該來自于什么DBMS的源數(shù)據(jù)?(2)傳輸:數(shù)據(jù)通過什么樣的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)傳送過來?(3)目的地:數(shù)據(jù)發(fā)送到數(shù)據(jù)倉庫的什么硬件環(huán)境?(4)元數(shù)據(jù):確定存儲(chǔ)和訪問數(shù)據(jù)的元數(shù)據(jù)。(5)變換:編制數(shù)據(jù)抽取、變換、裝載的程序。(6)訪問:最終用戶怎樣才能查詢數(shù)據(jù)?
確定體系結(jié)構(gòu)(1)來源:數(shù)據(jù)應(yīng)該來自于什么DBMS的源數(shù)據(jù)94(1)主題域分析
確定所需數(shù)據(jù)的范圍和內(nèi)容。并建立數(shù)據(jù)倉庫的數(shù)據(jù)模型:主題域范圍數(shù)據(jù)倉庫的數(shù)據(jù)模型(2)物理數(shù)據(jù)庫設(shè)計(jì)
數(shù)據(jù)的實(shí)際存儲(chǔ)設(shè)計(jì)3、數(shù)據(jù)倉庫設(shè)計(jì)(1)主題域分析3、數(shù)據(jù)倉庫設(shè)計(jì)95
(1)確定源數(shù)據(jù)、檢查其完整性,進(jìn)行評(píng)價(jià)。(2)完成源數(shù)據(jù)變換到目標(biāo)數(shù)據(jù)倉庫中去。4、源系統(tǒng)分析與數(shù)據(jù)變換設(shè)計(jì)(1)確定源數(shù)據(jù)、檢查其完整性,進(jìn)行評(píng)價(jià)。4、源系統(tǒng)分96
完成數(shù)據(jù)加載;評(píng)審;元數(shù)據(jù)加載;系統(tǒng)測(cè)試5、建立數(shù)據(jù)倉庫完成數(shù)據(jù)加載;評(píng)審;元數(shù)據(jù)加載;系統(tǒng)測(cè)試5、建立數(shù)據(jù)97提供給用戶訪問的形式:(1)使用現(xiàn)有的特定工具;(2)開發(fā)一個(gè)最終用戶訪問程序。6、用戶訪問方法的設(shè)計(jì)和開發(fā)提供給用戶訪問的形式:6、用戶訪問方法的設(shè)計(jì)和開發(fā)985.4.2數(shù)據(jù)倉庫的決策支持美國(guó)著名的NCR數(shù)據(jù)倉庫公司對(duì)數(shù)據(jù)倉庫總結(jié)5種決策支持能力。
1、報(bào)表2、隨機(jī)分析3、預(yù)測(cè)4、實(shí)時(shí)決策5、事件觸發(fā)的自動(dòng)決策5.4.2數(shù)據(jù)倉庫的決策支持美國(guó)著名的NCR數(shù)據(jù)倉庫公991、報(bào)表數(shù)據(jù)倉庫所面臨的最大挑戰(zhàn)是數(shù)據(jù)集成。傳統(tǒng)的環(huán)境經(jīng)常有上百個(gè)數(shù)據(jù)源,每一數(shù)據(jù)源都有各自定義的標(biāo)準(zhǔn)和實(shí)施技術(shù)。建立的數(shù)據(jù)倉庫是通過收集各種來源的數(shù)據(jù),來回答預(yù)先設(shè)置的一些問題,告訴決策者“發(fā)生了什么”。它為以后數(shù)據(jù)倉庫的發(fā)展奠定了基礎(chǔ)。
1、報(bào)表數(shù)據(jù)倉庫所面臨的最大挑戰(zhàn)是數(shù)據(jù)集成。傳統(tǒng)的環(huán)1002、隨機(jī)分析
數(shù)據(jù)倉庫應(yīng)用的第二種決策支持是,從“發(fā)生了什么”轉(zhuǎn)向“為什么會(huì)發(fā)生”。分析活動(dòng)就是了解報(bào)表數(shù)據(jù)的涵義,需要更多更詳細(xì)的數(shù)據(jù)進(jìn)行各種角度的分析。在第二階段的數(shù)據(jù)倉庫主要用于隨機(jī)分析。
2、隨機(jī)分析數(shù)據(jù)倉庫應(yīng)用的第二種決策支持是,從“發(fā)1013、預(yù)測(cè)
數(shù)據(jù)倉庫的第三種決策支持是幫助決策者來預(yù)測(cè)未來,回答“將要發(fā)生什么”。數(shù)據(jù)倉庫需要利用歷史資料創(chuàng)建預(yù)測(cè)模型。
3、預(yù)測(cè)數(shù)據(jù)倉庫的第三種決策支持是幫助決策者來預(yù)測(cè)1024、實(shí)時(shí)決策
數(shù)據(jù)倉庫的第4種決策支持是企業(yè)需要準(zhǔn)確了解“正在發(fā)生什么”,從而需要建立動(dòng)態(tài)數(shù)據(jù)倉庫(實(shí)時(shí)數(shù)據(jù)庫),用于支持戰(zhàn)術(shù)型決策,即實(shí)時(shí)決策。有效地解決當(dāng)前的實(shí)際問題。
第1到第3種決策支持的數(shù)據(jù)倉庫都以支持企業(yè)內(nèi)部戰(zhàn)略性決策為重點(diǎn),幫助企業(yè)制定發(fā)展戰(zhàn)略。
第4種決策支持側(cè)重在戰(zhàn)術(shù)性決策支持。
動(dòng)態(tài)數(shù)據(jù)倉庫能夠逐項(xiàng)產(chǎn)品、逐個(gè)店鋪、逐秒地作出最佳決策支持。4、實(shí)時(shí)決策數(shù)據(jù)倉庫的第4種決策支持是企業(yè)需要準(zhǔn)確了1035、事件觸發(fā)的自動(dòng)決策
數(shù)據(jù)倉庫的第5種決策支持是由事件觸發(fā),利用動(dòng)態(tài)數(shù)據(jù)庫自動(dòng)決策,達(dá)到“希望發(fā)生什么”。例如,電子貨架標(biāo)簽技術(shù)結(jié)合動(dòng)態(tài)數(shù)據(jù)倉庫,可以幫助企業(yè)按照自己的意愿實(shí)現(xiàn)復(fù)雜的價(jià)格管理自動(dòng)化,以便以最低的損耗售出最多的存貨。5、事件觸發(fā)的自動(dòng)決策數(shù)據(jù)倉庫的第5種決策支持是由事1045.4.3數(shù)據(jù)倉庫應(yīng)用實(shí)例
NCR公司成功地開發(fā)了很多實(shí)際數(shù)據(jù)倉庫系統(tǒng),在此介紹一例典型的數(shù)據(jù)倉庫系統(tǒng)。實(shí)例:金融業(yè)數(shù)據(jù)倉庫解決方案
數(shù)據(jù)倉庫是金融銀行機(jī)構(gòu)實(shí)現(xiàn)客戶關(guān)系管理(CustomerRelationshipManagement)的核心技術(shù),也是金融銀行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的來源,主要的應(yīng)用業(yè)務(wù)部門為信用卡部、信貸部、市場(chǎng)部和零售業(yè)務(wù)部等,應(yīng)用領(lǐng)域是以客戶為中心的的分銷渠道管理、客戶利潤(rùn)分析、客戶關(guān)系優(yōu)化、風(fēng)險(xiǎn)評(píng)估和管理。5.4.3數(shù)據(jù)倉庫應(yīng)用實(shí)例NCR公司成功地開發(fā)了105
銀行只有通過以客戶為中心(CustomerCentric)的數(shù)據(jù)倉庫決策支持系統(tǒng),才能使用科學(xué)的方法實(shí)現(xiàn)個(gè)性化服務(wù)。數(shù)據(jù)倉庫系統(tǒng)存放每一位客戶同銀行往來的詳細(xì)的歷史交易明細(xì)數(shù)據(jù),對(duì)客戶有統(tǒng)一的視圖。能幫助銀行業(yè)務(wù)用戶以科學(xué)的手段快速地分析、模擬和預(yù)測(cè)客戶的個(gè)性化需求,進(jìn)而設(shè)計(jì)符合客戶需求的產(chǎn)品或服務(wù)。通過客戶喜好的渠道完成交易,是增強(qiáng)商業(yè)銀行競(jìng)爭(zhēng)能力最有效的手段。
銀行只有通過以客戶為中心(CustomerCent106
什么是個(gè)性化服務(wù)呢?可以從客戶和銀行的觀點(diǎn)來看。
客戶認(rèn)為個(gè)性化服務(wù)是:銀行知道我(Who)在什么時(shí)間(When)、需要什么產(chǎn)品或服務(wù)(What)、以我可以接受的價(jià)格(HowMuch)、經(jīng)由我喜好的分銷渠道(Where),對(duì)我提供銷售。什么是個(gè)性化服務(wù)呢?可以從客戶和銀行的觀點(diǎn)來看。107
銀行的定義是:以有競(jìng)爭(zhēng)性的產(chǎn)品或服務(wù)(What)、在適當(dāng)?shù)臅r(shí)間(When)、通過適當(dāng)?shù)姆咒N渠道(Where)、對(duì)信用好風(fēng)險(xiǎn)低的客戶(Who)、以合理的價(jià)格(HowMuch)和利潤(rùn)(Profitable)完成銷售。
兩者都是在精打細(xì)算的前提下,以達(dá)成各自的需求和目標(biāo)。
銀行的定義是:以有競(jìng)爭(zhēng)性的產(chǎn)品或服務(wù)(What)、在1081、分銷渠道的分析和管理
銀行通過分析知道客戶、渠道、產(chǎn)品或服務(wù)三者之間的關(guān)系;了解客戶的購買行為;客戶或渠道對(duì)業(yè)務(wù)收入的貢獻(xiàn);哪些客戶比較喜好經(jīng)由什么渠道在何時(shí)和銀行打交道;目前的分銷渠道的服務(wù)能力如何;需要增加哪些分銷渠道才能達(dá)到預(yù)期的服務(wù)水平。1、分銷渠道的分析和管理
銀行通過分析知道客戶、渠道1092、利潤(rùn)評(píng)價(jià)模型
建立所有客戶的每一個(gè)帳號(hào)的利潤(rùn)評(píng)價(jià)模型,以便了解每一位客戶對(duì)銀行的總利潤(rùn)貢獻(xiàn)度。銀行可以依客戶的利潤(rùn)貢獻(xiàn)度安排合適的分銷渠道提供服務(wù)和銷售,知道哪些有利潤(rùn)的客戶需要留住,采用什么方法留住客戶,交叉銷售改善客戶的利潤(rùn)貢獻(xiàn)度,那些客戶應(yīng)該爭(zhēng)取。另外,銀行可以模擬和預(yù)測(cè),新產(chǎn)品對(duì)銀行利潤(rùn)的貢獻(xiàn)度,或是新政策對(duì)銀行會(huì)產(chǎn)生什么樣的財(cái)務(wù)影響,或是客戶流失或留住對(duì)銀行的整體利潤(rùn)的影響。2、利潤(rùn)評(píng)價(jià)模型
建立所有客戶的每一個(gè)帳號(hào)的利潤(rùn)評(píng)價(jià)1103、
客戶關(guān)系優(yōu)化
客戶在每一筆交易中都能主動(dòng)地告訴銀行需要什么產(chǎn)品和服務(wù),如定期存款是希望退休養(yǎng)老使用等;銀行利用客戶購買傾向模型、渠道喜好模型等主動(dòng)地和客戶溝通,達(dá)到留住客戶和增加利潤(rùn)的目標(biāo)。
3、
客戶關(guān)系優(yōu)化
客戶在每一筆交易中都能主動(dòng)地告訴1114、
風(fēng)險(xiǎn)評(píng)估和管理
風(fēng)險(xiǎn)評(píng)估和管理主要利用各種數(shù)學(xué)模型進(jìn)行分析,模擬風(fēng)險(xiǎn)和利潤(rùn)間的關(guān)系。銀行實(shí)現(xiàn)了以客戶為中心的個(gè)性化服務(wù)數(shù)據(jù)倉庫決策支持系統(tǒng),就可以在滿足高利潤(rùn)低風(fēng)險(xiǎn)客戶需求的前提下,達(dá)成銀行收益的極大化。4、
風(fēng)險(xiǎn)評(píng)估和管理風(fēng)險(xiǎn)評(píng)估和管理主要利用各種數(shù)學(xué)模112數(shù)據(jù)挖掘的興起(1)80年在美國(guó)召開了第一屆國(guó)際機(jī)器學(xué)習(xí)研討會(huì);(2)89年8月于美國(guó)底特律市召開的第一屆KDD國(guó)際學(xué)術(shù)會(huì)議;(3)95年在加拿大召開了第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議;(4)我國(guó)于87年召開了第一屆全國(guó)機(jī)器學(xué)習(xí)研討會(huì)。5.5知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的興起(1)80年在美國(guó)召開了第一屆國(guó)際機(jī)1135.5.1知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘概念知識(shí)發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程。數(shù)據(jù)挖掘(DM):KDD過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。KDD過程定義:
從大量數(shù)據(jù)中提取出可信的、新穎的、有用的并能被人理解的模式的高級(jí)處理過程。
“模式”可以看成是“知識(shí)”的雛形,經(jīng)過驗(yàn)證、完善后形成知識(shí)。5.5.1知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘概念知識(shí)發(fā)現(xiàn)(KDD):從數(shù)據(jù)114數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標(biāo)數(shù)據(jù)預(yù)處理后數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)模式知識(shí)數(shù)據(jù)選擇預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換結(jié)果表達(dá)和解釋數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果表達(dá)和解釋KDD過程數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標(biāo)數(shù)據(jù)預(yù)處理后轉(zhuǎn)換數(shù)據(jù)模式知識(shí)數(shù)據(jù)選擇預(yù)1155.5.2數(shù)據(jù)挖掘方法和技術(shù)(一)歸納學(xué)習(xí)方法分為兩大類:信息論方法(決策樹方法)和集合論方法。
1、信息論方法(決策樹方法)利用信息論的原理建立決策樹或者是決策規(guī)則樹。
(1)ID3方法:Quiulan研制的ID3方法是利用信息論中互信息建立決策樹。
(2)IBLE方法:我們研制的IBLE方法,是利用信息論中信道容量,尋找數(shù)據(jù)庫中信息量大的多個(gè)字段的取值建立決策規(guī)則樹。5.5.2數(shù)據(jù)挖掘方法和技術(shù)(一)歸納學(xué)習(xí)方法1162、集合論方法
(1)粗糙集(RoughSet)方法
對(duì)數(shù)據(jù)庫中的條件屬性集與決策屬性集建立上下近似關(guān)系,對(duì)下近似集合建立確定性規(guī)則,對(duì)上近似集合建立不確定性規(guī)則(含可信度)。
(2)關(guān)聯(lián)規(guī)則挖掘在交易事務(wù)數(shù)據(jù)庫中,挖掘出不同商品集的關(guān)聯(lián)關(guān)系,即發(fā)現(xiàn)哪些商品頻繁地被顧客同時(shí)購買。(3)覆蓋正例排斥反例方法
它是利用覆蓋所有正例,排斥所有反例的思想來尋找規(guī)則。比較典型的有AQ11方法,AQ15方法以及AE5方法。2、集合論方法117(二)仿生物技術(shù)仿生物技術(shù)典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。
1、神經(jīng)網(wǎng)絡(luò)方法:包括:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)等多個(gè)神經(jīng)網(wǎng)絡(luò)方法。
2、遺傳算法:這是模擬生物進(jìn)化過程的算法。它由三個(gè)基本算子組成:繁殖(選擇)、交叉(重組)、變異(突變)遺傳算法起到產(chǎn)生優(yōu)良后代的作用,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。(二)仿生物技術(shù)118(三)公式發(fā)現(xiàn)
在工程和科學(xué)數(shù)據(jù)庫中對(duì)若干數(shù)據(jù)項(xiàng)(變量)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。
1.物理定律發(fā)現(xiàn)系統(tǒng)BACON
BACON發(fā)現(xiàn)系統(tǒng)完成了物理學(xué)中大量定律的重新發(fā)現(xiàn)。
2.經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FDD
我們研制了FDD發(fā)現(xiàn)系統(tǒng),尋找由數(shù)據(jù)項(xiàng)的初等函數(shù)或復(fù)合函數(shù)組合成的經(jīng)驗(yàn)公式。
(三)公式發(fā)現(xiàn)119(四)統(tǒng)計(jì)分析方法
利用統(tǒng)計(jì)學(xué)原理通過對(duì)總體中的樣本數(shù)據(jù)進(jìn)行分析得出描述和推斷該總體信息和知識(shí)的方法。(五)模糊數(shù)學(xué)方法
利用模糊集合理論進(jìn)行數(shù)據(jù)挖掘,如模糊聚類、模糊分類等。(六)可視化技術(shù)
利用可視化技術(shù)分析數(shù)據(jù)庫,找到潛在的有用信息。(四)統(tǒng)計(jì)分析方法1205.5.3數(shù)據(jù)挖掘的知識(shí)表示(一)主要有5種:規(guī)則、決策樹、濃縮數(shù)據(jù)、網(wǎng)絡(luò)權(quán)值、公式。1、規(guī)則規(guī)則知識(shí)由前提條件和結(jié)論兩部分組成前提條件由字段項(xiàng)(屬性)的取值的合?。ㄅc)和析?。ɑ颍┙M合而成。
結(jié)論為決策字段項(xiàng)(屬性)的取值或者類別組成。5.5.3數(shù)據(jù)挖掘的知識(shí)表示(一)主要有5種:規(guī)則、決策樹121第5章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的DSS課件1222、決策樹例如:上例的人群數(shù)據(jù)庫,按ID3方法得到的決策樹如下:數(shù)據(jù)挖掘的知識(shí)表示(二)2、決策樹數(shù)據(jù)挖掘的知識(shí)表示(二)1233、知識(shí)基(濃縮數(shù)據(jù))
例如上例的人群數(shù)據(jù)庫,通過計(jì)算可以得出身高是不重要的字段,刪除它后,再合并相同數(shù)據(jù)元組,得到濃縮數(shù)據(jù)如下表:數(shù)據(jù)挖掘的知識(shí)表示(三)3、知識(shí)基(濃縮數(shù)據(jù))數(shù)據(jù)挖掘的知識(shí)表示(三)1244、網(wǎng)絡(luò)權(quán)值
神經(jīng)網(wǎng)絡(luò)方法經(jīng)過對(duì)訓(xùn)練樣本的學(xué)習(xí)后,所得到的知識(shí)是網(wǎng)絡(luò)連接權(quán)值和結(jié)點(diǎn)的閾值。數(shù)據(jù)挖掘的知識(shí)表示(四)Zy2x1x2
1y1T1T2w12w21
w11w22
2
,φ=0.5
4、網(wǎng)絡(luò)權(quán)值數(shù)據(jù)挖掘的知識(shí)表示(四)Zy2y1T11255、公式例如,太陽系行星運(yùn)動(dòng)數(shù)據(jù)中包含行星運(yùn)動(dòng)周期(旋轉(zhuǎn)一周所需時(shí)間,天),以及它與太陽的距離(圍繞太陽旋轉(zhuǎn)的橢圓軌道的長(zhǎng)半軸,百萬公里),數(shù)據(jù)如下表:發(fā)現(xiàn)的公式為:d3/p2=25數(shù)據(jù)挖掘的知識(shí)表示(五)5、公式發(fā)現(xiàn)的公式為:d3/p2=25數(shù)據(jù)挖掘的知識(shí)表示(1265.6數(shù)據(jù)挖掘的決策支持及應(yīng)用
5.6.1數(shù)據(jù)挖掘的決策支持分類有:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測(cè)、預(yù)測(cè)。1、關(guān)聯(lián)分析若兩個(gè)或多個(gè)數(shù)據(jù)項(xiàng)的取值之間重復(fù)出現(xiàn)且概率很高時(shí),它就存在某種關(guān)聯(lián),可以建立起這些數(shù)據(jù)項(xiàng)的關(guān)聯(lián)規(guī)則。2、時(shí)序模式通過時(shí)間序列搜索出重復(fù)發(fā)生概率較高的模式。這里強(qiáng)調(diào)時(shí)間序列的影響。
5.6數(shù)據(jù)挖掘的決策支持及應(yīng)用5.6.1數(shù)據(jù)挖掘的決策1273、聚類:在數(shù)據(jù)庫中找出一系列有意義的子集,即類。
4、分類:對(duì)數(shù)據(jù)庫中的類,找出該類別的概念描述規(guī)則。
5、偏差檢測(cè):
在數(shù)據(jù)庫中找出異常數(shù)據(jù)。6、預(yù)測(cè):利用歷史數(shù)據(jù)找出變化規(guī)律的模型,并用此模型預(yù)測(cè)未來。3、聚類:在數(shù)據(jù)庫中找出一系列有意義的子集,即類。128關(guān)聯(lián)規(guī)則開采方法關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)(如購買面包的顧客90%也同時(shí)買牛奶)、時(shí)序關(guān)聯(lián)(如若AT&T股票不下跌,則第三大IBM股票上漲的可能性為75%)及因果關(guān)聯(lián)等。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)之間存在潛在關(guān)系的規(guī)則形式為“A1∧A2∧…∧Am→B1∧B2∧…∧Bn”,其中Ai(i=l,2,…,m),Bj(j=1,2,…,n)是數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián),即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn),可推導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn)。關(guān)聯(lián)規(guī)則開采方法129
自然界中某種事物發(fā)生時(shí)其他事物也會(huì)發(fā)生的這樣一種聯(lián)系稱之為關(guān)聯(lián)。反映事件之間依賴或關(guān)聯(lián)的知識(shí)稱為關(guān)聯(lián)型知識(shí)(又稱依賴關(guān)系)。定義1:關(guān)聯(lián)是兩個(gè)或多個(gè)變量取值之間存在的一類重要的可被發(fā)現(xiàn)的某種規(guī)律性。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則基本概念關(guān)聯(lián)規(guī)則基本概念130
關(guān)聯(lián)分析目的是尋找給定數(shù)據(jù)記錄集中數(shù)據(jù)項(xiàng)之間隱藏的關(guān)聯(lián)關(guān)系,描述數(shù)據(jù)之間的密切度。關(guān)聯(lián)分析的結(jié)果常有兩種:
關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則用于尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性;序列模式與此類似,但它尋找的是事件之間時(shí)間上的相關(guān)性。關(guān)聯(lián)分析關(guān)聯(lián)分析131
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的主要對(duì)象是交易型數(shù)據(jù)庫,一個(gè)交易一般由交易處理時(shí)間,一組顧客購買的物品,有時(shí)也有顧客標(biāo)識(shí)號(hào)(如信用卡號(hào))組成。定義2:關(guān)聯(lián)規(guī)則是描述在一個(gè)交易中物品之間同時(shí)出現(xiàn)的規(guī)律的知識(shí)模式,更確切的說,關(guān)聯(lián)規(guī)則是通過量化的數(shù)字描述物品X的出現(xiàn)對(duì)物品Y的出現(xiàn)有多大的影響。
關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則132
以零售業(yè)為例,體育用品商場(chǎng)通過對(duì)銷售數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析通常可以發(fā)現(xiàn)這些數(shù)據(jù)中常常隱含形式如下的規(guī)律——“購買籃球的顧客中有70%的人同時(shí)購買籃球運(yùn)動(dòng)服,所有交易中有40%的人同時(shí)購買籃球和籃球運(yùn)動(dòng)服”等等。這些規(guī)律即關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則133定義3:關(guān)聯(lián)規(guī)則挖掘的交易數(shù)據(jù)集記為D(一般為交易數(shù)據(jù)庫),D={T1,T2,…,Tk,…,Tn},Tk(k=1,2,…,n)稱為交易,對(duì)應(yīng)每一個(gè)交易有唯一的標(biāo)識(shí),記作TID。元素im(m=1,2,…,p)稱為項(xiàng)。設(shè)I={i1,i2,…,im}是D中全體項(xiàng)組成的集合,且TkI。交易號(hào)(TID)
項(xiàng)集合(Itemsets)
T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3設(shè)X是一個(gè)I中項(xiàng)的集合,如果XTk,那么稱交易Tk包含項(xiàng)集X。若X,Y為項(xiàng)集,XI,YI,并且XY=,則形如X==>Y的表達(dá)式稱為關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則形式化定義交易號(hào)(TID)項(xiàng)集合(Itemsets)T100I1134置信度支持度關(guān)聯(lián)規(guī)則度量規(guī)則XY在交易數(shù)據(jù)集D中的置信度是對(duì)關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量。度量關(guān)聯(lián)規(guī)則的強(qiáng)度。即在所有出現(xiàn)了X的活動(dòng)中出現(xiàn)Y的頻率,即規(guī)則XY的必然性有多大。記為confidence(XY)。計(jì)算方法:包含X和Y的交易數(shù)與包含X的交易數(shù)之比:confidence(XY)=P(Y∣X)=|{T:XYT,TD}|/|{T:XT,TD}|×100%規(guī)則XY在交易數(shù)據(jù)集D中的支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,反映關(guān)聯(lián)是否是普遍存在的規(guī)律,說明這條規(guī)則在所有交易中有多大的代表性。即在所有交易中X與Y同時(shí)出現(xiàn)的頻率記為:support(XY)。計(jì)算方法:交易數(shù)據(jù)集中同時(shí)包含X和Y的交易數(shù)與所有交易數(shù)之比:support(XY)=P(X∪Y)=|{T:XYT,TD}|/|D|×100%(其中|D|是交易數(shù)據(jù)集D中的所有交易數(shù))置信度支持度關(guān)聯(lián)規(guī)則度量規(guī)則XY在交易數(shù)據(jù)135最小置信度閾值最小支持度閾值同時(shí)滿足最小置信度閾值和最小支持度閾值的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則,是有意義有價(jià)值。關(guān)聯(lián)規(guī)則度量最小置信度閾值關(guān)聯(lián)規(guī)則度量136在給定一個(gè)交易數(shù)據(jù)集D,挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和置信度分別大于用戶給定的最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則度量關(guān)聯(lián)規(guī)則度量137描述了對(duì)于關(guān)聯(lián)規(guī)則(X==>Y)在沒有任何條件影響時(shí),Y在所有交易中出現(xiàn)的頻率有多大。即沒有X的作用下,Y本身的支持度。
期望可信度改善度描述X的出現(xiàn)對(duì)Y的出現(xiàn)影響多大,是置信度與期望可信度的比值。P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則度量興趣度?(置信度-支持度)/Max{置信度,支持度}一條規(guī)則的興趣度大于0,實(shí)際利用價(jià)值越大;小于0則實(shí)際利用價(jià)值越小。描述了對(duì)于關(guān)聯(lián)規(guī)則(X==>Y)在沒有任何條件影響時(shí),Y138名稱描述公式置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)支持度X、Y同時(shí)出現(xiàn)的頻率
P(X∩Y)期望可信度
Y出現(xiàn)的頻率
P(Y)改善度
置信度對(duì)期望可信度的比值
P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則度量名稱描述公式置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)139找出所有具有最小支持度的項(xiàng)集(頻繁項(xiàng)集)。用Apriori、FP-Growth等算法來找出頻繁項(xiàng)集。使用頻繁項(xiàng)集生成期望的關(guān)聯(lián)規(guī)則對(duì)于每一個(gè)頻繁項(xiàng)集l,找出其中所有的非空子集;然后,對(duì)于每一個(gè)這樣的子集a,如果support(l)與support(a)的比值大于最小可信度,則存在規(guī)則a==>(l-a)。挖掘交易數(shù)據(jù)庫D中所有關(guān)聯(lián)規(guī)則的問題可以被劃分為兩個(gè)子問題:找出所有具有最小支持度的項(xiàng)集(頻繁項(xiàng)集)。使用頻繁項(xiàng)集生成140交易號(hào)項(xiàng)集合T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3表1交易數(shù)據(jù)庫D
例:找出頻繁項(xiàng)集--Apriori算法交易號(hào)項(xiàng)集合T100I1,I2,I5T200I2,I4141項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2C1L1掃描D,對(duì)每個(gè)候選計(jì)數(shù)比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)找出頻繁1-項(xiàng)集的集合L1找出頻繁項(xiàng)集--Apriori算法例:最小支持度閾值為2項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5142項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5}2項(xiàng)集{I1,I2}{I1,I3}{I1,I4}{I1,I5}{I2,I3}{I2,I4}{I2,I5}{I3,I4}{I3,I5}{I4,I5}L1C2由L1產(chǎn)生候選C2Lk-1用于產(chǎn)生候選Ck
找出頻繁項(xiàng)集--Apriori算法連接&剪枝項(xiàng)集支持度計(jì)數(shù){I1}6{I2}7{I3}6{I4}2{I5143項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I4}1{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2{I3,I4}0{I3,I5}1{I4,I5}0項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2C2L2比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)掃描D,對(duì)每個(gè)候選計(jì)數(shù)項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I4}144項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}2{I2,I3}4{I2,I4}2{I2,I5}2L2項(xiàng)集{I1,I2,I3}{I1,I2,I5}由L2產(chǎn)生候選C3C3連接&剪枝項(xiàng)集支持度計(jì)數(shù){I1,I2}4{I1,I3}4{I1,I5}145連接:C3=L2∞L2={{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}∞{{I1,I2},{I1,I3},{I1,I5},{I2,I3},{I2,I4},{I2,I5}}={{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}}連接:C3=L2∞L2=146剪枝:{I1,I2,I3}的2-項(xiàng)子集是{I1,I2},{I1,I3}和{I2,I3}。{I1,I2,I3}的所有2-項(xiàng)子集都是L2的元素。因此,保留{I1,I2,I3}在C3中。{I2,I3,I5}的2-項(xiàng)子集是{I2,I3},{I2,I5}和{I3,I5}。{I3,I5}不是L2的元素,因而不是頻繁的。因此,由C3中刪除{I2,I3,I5}。剪枝后C3={{I1,I2,I3},{I1,I2,I5}}。
剪枝:147項(xiàng)集支持度計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2C3掃描D,對(duì)每個(gè)候選計(jì)數(shù)比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù)項(xiàng)集支持度計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2L3對(duì)每個(gè)交易,使用subset函數(shù)找出交易中是候選的所有子集,并對(duì)每個(gè)這樣的候選累加計(jì)數(shù),所有滿足最小支持度的候選形成頻繁項(xiàng)集L。項(xiàng)集支持度計(jì)數(shù){I1,I2,I3}2{I1,I2,I5}2C1481.簡(jiǎn)單關(guān)聯(lián)規(guī)則單維、單層、布爾型關(guān)聯(lián)規(guī)則2.量化關(guān)聯(lián)規(guī)則3.多維關(guān)聯(lián)規(guī)則4.跨層關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則分類籃球=>籃球服,只涉及到用戶購買的物品性別=“女”=>平均收入=2300,涉及的收入是數(shù)值類型性別=“男”=>購買=“籃球”,涉及兩個(gè)維
Adidas籃球=>Nike籃球服同層關(guān)聯(lián)規(guī)則層間關(guān)聯(lián)規(guī)則籃球=>Nike籃球服關(guān)聯(lián)規(guī)則分類籃球=>籃球服,只涉及到用戶購買的物品性別=“女1495.6.2決策樹及其應(yīng)用1、決策樹概念:決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對(duì)大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。5.6.2決策樹及其應(yīng)用1、決策樹概念:150數(shù)據(jù)挖掘的決策樹方法的原理是信息論,信息論是C.E.Shannon為解決信息傳遞(通信)過程問題而建立的理論,也稱為統(tǒng)計(jì)通信理論。一個(gè)傳遞信息的系統(tǒng)是由發(fā)送端(信源)和接收端(信宿)以及連接兩者的通道(信道)三者組成。信息論把通信過程看做是在隨機(jī)干擾的環(huán)境中傳遞信息的過程。在這個(gè)通信模型中,信息源和干擾(噪聲)都被理解為某種隨機(jī)過程或隨機(jī)序列。數(shù)據(jù)挖掘的決策樹方法的原理是信息論,信息論是C.E.Shan151在進(jìn)行實(shí)際的通信之前,收信者(信宿)不可能確切了解信源究竟會(huì)發(fā)出什么樣的具體信息,不可能判斷信源會(huì)處于什么樣的狀態(tài)。這種情形就稱為信宿對(duì)于信源狀態(tài)具有不確定性。而且這種不確定性是存在于通信之前的。因而又叫做先驗(yàn)不確定性。在進(jìn)行了通信之后,信宿收到了信源發(fā)來的信息,這種先驗(yàn)不確定性才會(huì)被消除或者被減少。如果干擾很小,信源發(fā)出的信息能夠被信宿全部收到,在這種情況下,信宿的先驗(yàn)不確定性就會(huì)被完全消除。在進(jìn)行實(shí)際的通信之前,收信者(信宿)不可能確切了解信源究竟會(huì)152在一般情況下,干擾總會(huì)對(duì)信源發(fā)出的信息造成某種破壞,使信宿收到的信息不完全。因此,先驗(yàn)不確定性不能全部被消除,只能部分地消除。通信結(jié)束之后,信宿還仍然具有一定程度的不確定性。這就是后驗(yàn)不確定性。顯然,后驗(yàn)不確定性總要小于先驗(yàn)不確定性,不可能大于先驗(yàn)不確定性。在一般情況下,干擾總會(huì)對(duì)信源發(fā)出的信息造成某種破壞,使信宿收153如果后驗(yàn)不確定性的大小正好等于先驗(yàn)不確定性的大小,這就表示信宿根本沒有收到信息。如果后驗(yàn)不確定性的大小等于零,這就表示信宿收到了全部信息??梢姡畔⑹怯脕硐S機(jī))不確定性的度量。信息量的大小,由所消除的不確定性的大小來計(jì)量。如果后驗(yàn)不確定性的大小正好等于先驗(yàn)不確定性的大小,這就表示信1542、ID3算法當(dāng)前國(guó)際上最有影響的示例學(xué)習(xí)方法首推J.R.Quinlan的ID3。ID3引進(jìn)了信息論中的互信息,他將其稱為信息增益(informationgain),作為特征判別能力的度量,并且將建樹的方法嵌在一個(gè)迭代的中。2、ID3算法當(dāng)前國(guó)際上最有影響的示例學(xué)習(xí)方法首推J.R.Q155一、ID3基本思想某天早晨氣候描述為:
天氣:多云
氣溫:冷
濕度:正常
風(fēng):無風(fēng)
在一實(shí)體世界中,每個(gè)實(shí)體用多個(gè)特征來描述。每個(gè)特征限于在一個(gè)離散集中取互斥的值。例如,設(shè)實(shí)體是某天早晨,分類任務(wù)是關(guān)于氣候的類型,特征為:
天氣取值為:晴,多云,雨
氣溫取值為:冷,適中,熱
濕度取值為:高,正常
風(fēng)取值為:有風(fēng),無風(fēng)一、ID3基本思想某天早晨氣候描述為:在一實(shí)體世界中156它屬于哪類氣候呢?每個(gè)實(shí)體屬于不同的類別,為簡(jiǎn)單起見,假定僅有兩個(gè)類別,分別為P,N。在這種兩個(gè)類別的歸納任務(wù)中,P類和N類的實(shí)體分別稱為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓(xùn)練集。下表給出一個(gè)訓(xùn)練集。由ID3算法得出一棵正確分類訓(xùn)練集中每個(gè)實(shí)體的決策樹,見圖。它屬于哪類氣候呢?157NO.屬性類別天氣氣溫濕度風(fēng)1晴熱高無風(fēng)N2晴熱高有風(fēng)N3多云熱高無風(fēng)P4雨適中高無風(fēng)P5雨冷正常無風(fēng)P6雨冷正常有風(fēng)N7多云冷正常有風(fēng)P8晴適中高無風(fēng)N9晴冷正常無風(fēng)P10雨適中正常無風(fēng)P11晴適中正常有風(fēng)P12多云適中高有風(fēng)P13多云熱正常無風(fēng)P14雨適中高有風(fēng)NNO.屬性類別天氣氣溫濕度風(fēng)1晴熱高無風(fēng)N2晴熱高有風(fēng)N3多158天氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決策樹天氣濕度風(fēng)晴雨多云高正常有風(fēng)無風(fēng)PNNPPID3決策159決策樹葉子為類別名,即P或者N。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)境災(zāi)害應(yīng)急物資儲(chǔ)備庫建設(shè)國(guó)家標(biāo)準(zhǔn)重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)歸納
- 樂趣與色彩春節(jié)淡藍(lán)故事
- 土木工程項(xiàng)目中的BIM技術(shù)標(biāo)準(zhǔn)化應(yīng)用
- 公司股權(quán)激勵(lì)項(xiàng)目方案
- 春節(jié)里的淡藍(lán)夢(mèng)幻
- 外墻防水分格縫設(shè)置
- 保險(xiǎn)公司新春年貨活動(dòng)方案
- 保險(xiǎn)公司美食匯活動(dòng)方案
- 保險(xiǎn)公司高客活動(dòng)方案
- 保險(xiǎn)沙龍活動(dòng)方案
- 生物安全管理體系文件
- 航空測(cè)繪項(xiàng)目服務(wù)創(chuàng)新措施
- 2025年中國(guó)廣電網(wǎng)絡(luò)股份有限公司招聘筆試參考題庫含答案解析
- 大學(xué)寫作知到智慧樹章節(jié)測(cè)試課后答案2024年秋內(nèi)江師范學(xué)院
- 互聯(lián)網(wǎng)+醫(yī)療:智慧醫(yī)療解決方案
- 建筑工程儀器設(shè)備使用方案
- 呼吸科患者出院指導(dǎo)
- 中醫(yī)治療協(xié)議書范本(2篇)
- 【MOOC】測(cè)量學(xué)-西北農(nóng)林科技大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 【MOOC】線性代數(shù)及其應(yīng)用-天津大學(xué) 中國(guó)大學(xué)慕課MOOC答案
- 酒店餐飲設(shè)備電路布線合同
評(píng)論
0/150
提交評(píng)論