




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第6章
CRM中的數據管理數據倉庫(datawarehouse)與數據挖掘(datamining)第6章
16.1數據倉庫的基本原理數據倉庫的興起1.“數據太多,信息不足”的現狀2.異構環境的數據源據美國《幸福》雜志所列的全球2000家大公司中已有90%將Internet網絡和數據倉庫這兩項技術列入企業計劃。數據倉庫是1995年開始盛行起來的。6.1數據倉庫的基本原理數據倉庫的興起26.1.1數據倉庫的概念(1)W.H.Inmon在《建立數據倉庫》一書中,對數據倉庫的定義為:數據倉庫是面向主題的、集成的、穩定的,不同時間的數據集合,用于支持經營管理中決策制定過程。6.1.1數據倉庫的概念(1)W.H.Inmon在3(2)SAS軟件研究所定義:數據倉庫是一種管理技術,旨在通過通暢、合理、全面的信息管理,達到有效的決策支持。(2)SAS軟件研究所定義:4
傳統數據庫用于事務處理,也叫操作型處理,是指對數據庫聯機進行日常操作,即對一個或一組記錄的查詢和修改,主要為企業特定的應用服務的。用戶關心的是響應時間,數據的安全性和完整性。數據倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(DSS)的基礎。傳統數據庫用于事務處理,也叫操作型處理,是指對數據庫5操作型數據(DB數據)與分析型數據(DW數據)之間的差別為:操作型數據(DB數據)與6數據倉庫特點(1)數據倉庫是面向主題的主題是數據歸類的標準,每一個主題基本對應一個宏觀的分析領域。例如,銀行的數據倉庫的主題:客戶DW的客戶數據來源:從銀行儲蓄DB、信用卡DB、貸款DB等三個DB中抽取同一客戶的數據整理而成。在DW中分析客戶數據,可決定是否繼續給予貸款。數據倉庫特點(1)數據倉庫是面向主題的7傳統的數據庫是面向應用而進行數據組織的,其抽象程度不夠高,沒有完全實現數據與應用的分離。但這種方式能較好地將企業業務活動與數據庫模式相對應,利于從手工處理向計算機處理過渡,因而具有較好的可操作性;數據倉庫是面向主題而進行數據組織的。主題是一個在較高層次上對數據的抽象,在邏輯意義上,它是對企業中某一宏觀領域所涉及的分析對象,即將數據組織成主題域。傳統的數據庫是面向應用而進行數據組織的,其抽象程度不夠高,沒8面向主題汽車人壽健康意外傷亡操作性環境應用顧客保險單保險費索賠數據倉庫主題面向主題汽車操作性環境應用顧客數據倉庫主題9(2)數據倉庫是集成的數據進入數據倉庫之前,必須經過加工與集成。對不同的數據來源進行統一數據結構和編碼。統一原始數據中的所有矛盾之處,如字段的同名異義,異名同義,單位不統一,字長不一致等。將原始數據結構做一個從面向應用到面向主題的大轉變。(2)數據倉庫是集成的10
數據庫
應用Am,f應用B1,0應用Cx,y應用D男,女
數據倉庫
m,f編碼應用A管道cm應用B管道inches應用C管道mcf應用D管道yds管道cm屬性度量數據庫數據倉庫編碼應用A管道cm管道cm屬性11應用A描述應用B描述應用C描述應用D描述應用Achar(10)應用Bdecfixed(9,2)應用Cpic‘9999999’應用Dchar(12)多重信息源?描述char(12)沖突的鍵碼集成應用A描述多重信息源?描述沖突的鍵碼集成12(3)數據倉庫是穩定/非易失的操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。(3)數據倉庫是穩定/非易失的13非易失性插入刪除插入修改刪除訪問修改訪問數據的逐個記錄方式處理數據的批量載入/訪問數據庫數據倉庫非易失性插入刪除插入修改刪除訪問修改訪問數據的逐個記錄方式處14(4)數據倉庫是反映時間變化的
操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。數據倉庫中的數據時間期限要遠遠長于操作型系統中的數據時間期限。操作型系統的時間期限一般是60~90天,而數據倉庫中數據的時間期限通常是5~10年。客戶關系管理第6章課件15操作型數據庫含有“當前值”的數據,這些數據的準確性在訪問時是有效的,同樣當前值的數據能被更新。而數據倉庫中的數據僅僅是一系列某一時刻生成的復雜的快照。操作型數據的鍵碼結構可能包含也可能不包含時間元素,如年、月、日等。而數據倉庫的鍵碼結構總是包含某時間元素。數據倉庫的數據碼鍵都包含時間項,用作標明數據的歷史時期。數據倉庫中的數據包含有大量綜合數據,很多與時間有關,如按時間段進行綜合或隔時間片進行抽樣。隨著時間變化,數據倉庫需要不斷增加新數據、刪去舊數據。操作型數據庫含有“當前值”的數據,這些數據的準確性在訪問時是16數據庫數據倉庫時間期限:當前到60—90天記錄更新鍵碼結構可能包括也可能不包括時間元素時間期限:5—10年數據的復雜快照鍵碼結構包括時間元素數據庫數據倉庫時間期限:當前到60—90天時間期限:5—117
(5)DW中數據量大。大型DW是一個TB(1000GB)級數據庫問題(一般為10GB級相當于一般數據庫100MB的100倍)需要一個巨大的硬件平臺需要一個并行的數據庫系統最好的數據倉庫是大的和昂貴的。(5)DW中數據量大。18
(6)是信息的概括和聚集。
(6)是信息的概括和聚集。19操作性數據倉庫JJones女1945年7月20日。。。。。JJones去年有兩張罰單一次大事故。。。。。JJonesMain大街123號已婚。。。。。JJones兩個孩子高血壓。。。。。人壽保險汽車保險房產保險健康保險JJones女1945年7月20日出生去年兩張罰單一次大事故已婚兩個孩子高血壓。。。。。。顧客操作性數據倉庫JJonesJJonesJJones206.1.2數據倉庫中的數據組織1數據的粒度2數據倉庫的數據組織結構3數據的分割4數據倉庫的數據組織形式5數據倉庫的數據組織模式6數據的追加6.1.2數據倉庫中的數據組織1數據的粒度211粒度粒度——是指數據倉庫的數據單位中保存數據的細化或總合程度的級別。細化程度越高,粒度級就越小;
細化程度越低,粒度級就越大。粒度——細節的級別粒度的劃分決定了數據倉庫中數據量的大小和查詢的詳細程度。多重粒度1粒度粒度——是指數據倉庫的數據單位中保存數據的細化或總合22粒度的一個例子高細化低細化每月200個記錄每月40,000個字節每月一個記錄每月200個字節通過檢索可以回答無細節無法回答詢問某一電話的細節粒度的一個例子高細化低細化每月200個記錄每月一個記錄通過檢23
近期基本數據:是最近時期的業務數據,是數據倉庫用戶最感興趣的部分,數據量大。
歷史基本數據:近期基本數據隨時間的推移,由數據倉庫的時間控制機制轉為歷史基本數據。
輕度綜合數據:是從近期基本數據中提取出的,這層數據是按時間段選取,或者按數據屬性(attributes)和內容(contents)進行綜合。
高度綜合數據層:這一層的數據是在輕度綜合數據基礎上的再一次綜合,是一種準決策數據。2數據倉庫的數據組織結構近期基本數據:是最近時期的業務數據,是數據倉242數據倉庫的數據組織結構元數據高度綜合級輕度綜合級(數據集市)銷售細節級2000-2001操作型轉換早期細節級每月銷售1994-2001每周銷售1994-2001當前細節級銷售細節級1994-19992數據倉庫的數據組織結構元數據高度綜合級輕度綜合級銷售細節253分割分割——將當前細節數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理效率。分片——數據分割后的獨立單元。數據的分割提高了數據管理的靈活性
重構、索引、重組、恢復、監控分割的標準:日期、地域、業務領域。3分割分割——將當前細節數據分散到各自的物理單元中去以便能26分割的一個例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保險生命保險健康保險分割的一個例子分片9分片8分片72001分片6分片5分片42274數據倉庫的數據組織形式簡單堆積數據輪轉綜合數據簡化直接數據連續數據4數據倉庫的數據組織形式簡單堆積數據28簡單堆積文件1月1日1月2日1月3日……2月1日2月2日2月3日……3月1日3月2日3月3日……………………簡單堆積文件1月1日29輪轉綜合文件星期一星期二……星期天第一周第二周……第五周一月二月……十二月
………………輪轉綜合文件星期一30簡化直接文件數據庫快照姓名顧客號地址張平C960100北京王珂C960101上海劉輝C960102天津李強C960103成都
...
一月份顧客表操作性數據生成簡化直接文件簡化直接文件數據庫快照姓名顧客號地址一月31連續文件姓名顧客號地址張平C020100北京王珂C020101上海張順C020102天津李強C020103成都姓名顧客號地址張平C020100北京王珂C020101上海張順C020101廣州李強C020103成都劉誠C020105杭州姓名顧客號日期地址張平C0201001-2月北京王珂C0201011-2月上海張順C0201031月天津張順C0201032月廣州李強C0201031-2月成都劉誠C0201052月杭州1月份顧客表2月份顧客表1-2月份顧客表連續文件姓名顧客號地址姓名顧客32第6章
CRM中的數據管理數據倉庫(datawarehouse)與數據挖掘(datamining)第6章
336.1數據倉庫的基本原理數據倉庫的興起1.“數據太多,信息不足”的現狀2.異構環境的數據源據美國《幸福》雜志所列的全球2000家大公司中已有90%將Internet網絡和數據倉庫這兩項技術列入企業計劃。數據倉庫是1995年開始盛行起來的。6.1數據倉庫的基本原理數據倉庫的興起346.1.1數據倉庫的概念(1)W.H.Inmon在《建立數據倉庫》一書中,對數據倉庫的定義為:數據倉庫是面向主題的、集成的、穩定的,不同時間的數據集合,用于支持經營管理中決策制定過程。6.1.1數據倉庫的概念(1)W.H.Inmon在35(2)SAS軟件研究所定義:數據倉庫是一種管理技術,旨在通過通暢、合理、全面的信息管理,達到有效的決策支持。(2)SAS軟件研究所定義:36
傳統數據庫用于事務處理,也叫操作型處理,是指對數據庫聯機進行日常操作,即對一個或一組記錄的查詢和修改,主要為企業特定的應用服務的。用戶關心的是響應時間,數據的安全性和完整性。數據倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(DSS)的基礎。傳統數據庫用于事務處理,也叫操作型處理,是指對數據庫37操作型數據(DB數據)與分析型數據(DW數據)之間的差別為:操作型數據(DB數據)與38數據倉庫特點(1)數據倉庫是面向主題的主題是數據歸類的標準,每一個主題基本對應一個宏觀的分析領域。例如,銀行的數據倉庫的主題:客戶DW的客戶數據來源:從銀行儲蓄DB、信用卡DB、貸款DB等三個DB中抽取同一客戶的數據整理而成。在DW中分析客戶數據,可決定是否繼續給予貸款。數據倉庫特點(1)數據倉庫是面向主題的39傳統的數據庫是面向應用而進行數據組織的,其抽象程度不夠高,沒有完全實現數據與應用的分離。但這種方式能較好地將企業業務活動與數據庫模式相對應,利于從手工處理向計算機處理過渡,因而具有較好的可操作性;數據倉庫是面向主題而進行數據組織的。主題是一個在較高層次上對數據的抽象,在邏輯意義上,它是對企業中某一宏觀領域所涉及的分析對象,即將數據組織成主題域。傳統的數據庫是面向應用而進行數據組織的,其抽象程度不夠高,沒40面向主題汽車人壽健康意外傷亡操作性環境應用顧客保險單保險費索賠數據倉庫主題面向主題汽車操作性環境應用顧客數據倉庫主題41(2)數據倉庫是集成的數據進入數據倉庫之前,必須經過加工與集成。對不同的數據來源進行統一數據結構和編碼。統一原始數據中的所有矛盾之處,如字段的同名異義,異名同義,單位不統一,字長不一致等。將原始數據結構做一個從面向應用到面向主題的大轉變。(2)數據倉庫是集成的42
數據庫
應用Am,f應用B1,0應用Cx,y應用D男,女
數據倉庫
m,f編碼應用A管道cm應用B管道inches應用C管道mcf應用D管道yds管道cm屬性度量數據庫數據倉庫編碼應用A管道cm管道cm屬性43應用A描述應用B描述應用C描述應用D描述應用Achar(10)應用Bdecfixed(9,2)應用Cpic‘9999999’應用Dchar(12)多重信息源?描述char(12)沖突的鍵碼集成應用A描述多重信息源?描述沖突的鍵碼集成44(3)數據倉庫是穩定/非易失的操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。(3)數據倉庫是穩定/非易失的45非易失性插入刪除插入修改刪除訪問修改訪問數據的逐個記錄方式處理數據的批量載入/訪問數據庫數據倉庫非易失性插入刪除插入修改刪除訪問修改訪問數據的逐個記錄方式處46(4)數據倉庫是反映時間變化的
操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。數據倉庫中的數據時間期限要遠遠長于操作型系統中的數據時間期限。操作型系統的時間期限一般是60~90天,而數據倉庫中數據的時間期限通常是5~10年。客戶關系管理第6章課件47操作型數據庫含有“當前值”的數據,這些數據的準確性在訪問時是有效的,同樣當前值的數據能被更新。而數據倉庫中的數據僅僅是一系列某一時刻生成的復雜的快照。操作型數據的鍵碼結構可能包含也可能不包含時間元素,如年、月、日等。而數據倉庫的鍵碼結構總是包含某時間元素。數據倉庫的數據碼鍵都包含時間項,用作標明數據的歷史時期。數據倉庫中的數據包含有大量綜合數據,很多與時間有關,如按時間段進行綜合或隔時間片進行抽樣。隨著時間變化,數據倉庫需要不斷增加新數據、刪去舊數據。操作型數據庫含有“當前值”的數據,這些數據的準確性在訪問時是48數據庫數據倉庫時間期限:當前到60—90天記錄更新鍵碼結構可能包括也可能不包括時間元素時間期限:5—10年數據的復雜快照鍵碼結構包括時間元素數據庫數據倉庫時間期限:當前到60—90天時間期限:5—149
(5)DW中數據量大。大型DW是一個TB(1000GB)級數據庫問題(一般為10GB級相當于一般數據庫100MB的100倍)需要一個巨大的硬件平臺需要一個并行的數據庫系統最好的數據倉庫是大的和昂貴的。(5)DW中數據量大。50
(6)是信息的概括和聚集。
(6)是信息的概括和聚集。51操作性數據倉庫JJones女1945年7月20日。。。。。JJones去年有兩張罰單一次大事故。。。。。JJonesMain大街123號已婚。。。。。JJones兩個孩子高血壓。。。。。人壽保險汽車保險房產保險健康保險JJones女1945年7月20日出生去年兩張罰單一次大事故已婚兩個孩子高血壓。。。。。。顧客操作性數據倉庫JJonesJJonesJJones526.1.2數據倉庫中的數據組織1數據的粒度2數據倉庫的數據組織結構3數據的分割4數據倉庫的數據組織形式5數據倉庫的數據組織模式6數據的追加6.1.2數據倉庫中的數據組織1數據的粒度531粒度粒度——是指數據倉庫的數據單位中保存數據的細化或總合程度的級別。細化程度越高,粒度級就越小;
細化程度越低,粒度級就越大。粒度——細節的級別粒度的劃分決定了數據倉庫中數據量的大小和查詢的詳細程度。多重粒度1粒度粒度——是指數據倉庫的數據單位中保存數據的細化或總合54粒度的一個例子高細化低細化每月200個記錄每月40,000個字節每月一個記錄每月200個字節通過檢索可以回答無細節無法回答詢問某一電話的細節粒度的一個例子高細化低細化每月200個記錄每月一個記錄通過檢55
近期基本數據:是最近時期的業務數據,是數據倉庫用戶最感興趣的部分,數據量大。
歷史基本數據:近期基本數據隨時間的推移,由數據倉庫的時間控制機制轉為歷史基本數據。
輕度綜合數據:是從近期基本數據中提取出的,這層數據是按時間段選取,或者按數據屬性(attributes)和內容(contents)進行綜合。
高度綜合數據層:這一層的數據是在輕度綜合數據基礎上的再一次綜合,是一種準決策數據。2數據倉庫的數據組織結構近期基本數據:是最近時期的業務數據,是數據倉562數據倉庫的數據組織結構元數據高度綜合級輕度綜合級(數據集市)銷售細節級2000-2001操作型轉換早期細節級每月銷售1994-2001每周銷售1994-2001當前細節級銷售細節級1994-19992數據倉庫的數據組織結構元數據高度綜合級輕度綜合級銷售細節573分割分割——將當前細節數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理效率。分片——數據分割后的獨立單元。數據的分割提高了數據管理的靈活性
重構、索引、重組、恢復、監控分割的標準:日期、地域、業務領域。3分割分割——將當前細節數據分散到各自的物理單元中去以便能58分割的一個例子分片9分片8分片72001分片6分片5分片42000分片3分片2分片11999事故保險生命保險健康保險分割的一個例子分片9分片8分片72001分片6分片5分片42594數據倉庫的數據組織形式簡單堆積數據輪轉綜合數據簡化直接數據連續數據4數據倉庫的數據組織形式簡單堆積數據60簡單堆積文件1月1日1月2日
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年心理學概論考試試卷及答案
- 2025年心理學專業碩士研究生入學考試試卷及答案
- 2025年物理學基礎知識驗收考試題及答案
- 2025年食品安全監督相關考試試題及答案
- Adezmapimod-hydrochloride-Standard-SB-203580-hydrochloride-Standard-生命科學試劑-MCE
- 2025年社會工作者職業資格認證考試試題及答案
- 2025年農學與生態學研究生入學考試試題及答案
- 2025年電子商務技術考試試卷及答案
- 2025年兒童發展心理學考試試題及答案
- 2025年護理碩士研究生入學考試試卷及答案
- 審核技巧培訓
- 延遲退休人員協議書
- 井下作業施工方案
- 2025年房地產開發經營服務項目投資風險評估報告
- EPC項目全流程咨詢管理的核心要點與優化策略
- 鐵路施工高空作業安全教育
- 2025年管道工(技師)職業技能鑒定理論考試題庫(含答案)
- 一體化污水處理設備采購安裝及運維 投標方案(技術方案)
- 晉升品質主管述職報告
- 雷火灸技術操作流程圖及考核標準
- 北師大版三年級下冊數學全冊教案(完整版)教學設計含教學反思
評論
0/150
提交評論