




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1/43CRM與數據倉庫計算機科學系張秀萍2/43本章內容4.1
數據倉庫概述 4.2
數據倉庫與數據庫的區別 4.3數據倉庫的建模模型4.4
OLAP與數據集成4.5數據倉庫的實施3/434.1
數據倉庫概述 4.1.1數據倉庫的產生
4.1.2數據倉庫的概念及特征
4.1.3數據倉庫的內容4/43
數據倉庫與CRM有著難以割舍的密切關系,從某種意義上說,數據倉庫是客戶關系管理的靈魂。利用數據倉庫,企業可以對客戶行為的分析與預測,從而制定準確的市場策略、發現企業的重點客戶和評價市場性能,并通過銷售和服務等部門與客戶交流,實現企業利潤的提高。對于客戶量大、市場策略對企業影響較大的企業來說,必須在客戶關系管理系統中包含數據倉庫。4.1數據倉庫概述5/43數據倉庫的產生早期的數據庫主要支持聯機事務處理決策支持對數據分析的需求傳統數據庫系統不適宜DSS事務處理和分析處理的性能特性不同數據集成問題數據動態集成問題歷史數據問題數據的綜合問題操作繁簡問題4.1數據倉庫概述6/43
有人感嘆:20年前查詢不到數據是因為數據太少了,而今天查詢不到數據是因為數據太多了。要提高分析和決策的效率和有效性,分析型處理及其數據必須與操作型處理及其數據相分離。必須把分析型數據從事務處理環境中提取出來,按照DSS處理的需要進行重新組織,建立單獨的分析處理環境,數據倉庫正是為了構建這種新的分析處理環境而出現的一種數據存儲和組織技術。4.1數據倉庫概述數據倉庫的產生7/43
目前,數據倉庫一詞尚沒有一個統一的定義。著名的數據倉庫專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數據倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(TimeVariant)的數據集合,用于支持管理決策。數據倉庫的概念4.1數據倉庫概述8/43
數據倉庫概念的兩個層次功能上:數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;內容和特征上:數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。數據倉庫的概念4.1數據倉庫概述9/43面向主題(subject-oriented)
數據倉庫圍繞一些主題,如客戶、供應商、產品和銷售組織。數據倉庫關心決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理。因此數據倉庫排除對決策無用的數據,提供特定主題的簡明視圖。集成性(integrated)
構造數據倉庫是將多個異種數據源,如關系數據庫、一般文件和聯機事務處理記錄,集成在一起。使用數據清理和數據集成技術,確保命名約定、編碼結構、屬性度量等的一致性。數據倉庫的特征4.1數據倉庫概述10/43非易失性(nonvolatile)
數據一旦進入數據倉庫就不再改變,因此不需要傳統數據庫中類似插入、更新、刪除等操作,在數據倉庫中只有裝載操作。時變性(time-variant)
數據倉庫中數據都是和時間相關,并且每隔一段時間后,運作數據庫系統中的數據將被抽取、轉換后集成到數據倉庫中。數據倉庫的特征4.1數據倉庫概述11/43數據倉庫的特征4.1數據倉庫概述12/43數據倉庫的特征4.1數據倉庫概述13/43
數據倉庫并沒有嚴格的數學理論基礎,也沒有成熟的基本模式,且更偏向于工程,具有強烈的工程性。因此,在技術上人們習慣于從工作過程等方面來分析,并按其關鍵技術部份分為數據的抽取、存儲與管理以及數據的表現等三個基本方面。
數據倉庫的內容4.1數據倉庫概述14/43數據倉庫本質
數據倉庫實際上是一個“以大型數據管理信息系統為基礎的、附加在這個數據庫系統之上的、存儲了從企業所有業務數據庫中獲取的綜合數據的、并能利用這些綜合數據為用戶提供經過處理后的有用信息的應用系統”。如果說傳統數據庫系統的重點與要求是快速、準確、安全、可靠地將數據存進數據庫中的話,那么數據倉庫的重點與要求就是能夠準確、安全、可靠地從數據庫中取出數據,經過加工轉換成有規律信息之后,再供管理人員進行分析使用。數據倉庫所要研究和解決的問題就是從數據庫中獲取信息。4.1數據倉庫概述15/434.2
數據倉庫與數據庫的區別 16/43
目前,人們要利用現有的數據,進行分析和推理,從而為決策提供依據。這種需求既要求聯機服務,又涉及大量用于決策的數據。而傳統的數據庫系統已無法滿足這種需求:1.所需歷史數據量很大,而傳統數據庫一般只存儲短期數據。2.涉及許多部門的數據,而不同系統的數據難以集成。3.對大量數據的訪問性能明顯下降4.2數據倉庫與數據庫的區別17/43目的不同數據庫用于事務處理;數據倉庫用于決策支持存儲方式不同數據庫中的數據以表格方式存儲;數據倉庫中以數組方式存儲查詢方式不同數據庫中應用OLTP(在線事務處理);數據倉庫應用OLAP(在線分析處理)或數據挖掘4.2數據倉庫與數據庫的區別18/43數據類型不同數據庫針對交易型數據設計的,關心的是短期內每一筆交易的細節信息,并對這些交易記錄進行增刪改的操作;數據倉庫一般只涉及從數據集中觀察數據,并不進行增刪改等操作。完成任務的性質不同前者要求實時性、交互性,而后者需要涉及大范圍的數據計算,復雜的基于多個層次的查詢語言。響應時間不同數據庫要求響應時間短,數據倉庫要求響應時間合理4.2數據倉庫與數據庫的區別19/43
可以看出,數據倉庫最根本的特點是物理的存放數據,而且這些數據并非是最新的、專有的,而是來源于其它的數據庫。數據倉庫的建立并不是要取代原有的數據庫,而是建立在一個較全面、完善的信息應用的基礎上,用于支持高層決策分析。4.2數據倉庫與數據庫的區別20/434.3
數據倉庫的建模模型 4.3.1數據倉庫的體系結構
4.3.2數據倉庫的建模模型21/43數據倉庫系統體系結構
4.4數據倉庫的建模模型22/43
數據倉庫數據模型采用多維數據模型。可以以星型模型、雪花模型等形式存在。幾個相關概念:事實表(Fact):存儲用戶需要查詢分析的數據,事實表中一般包含多個維(Dimension)和度量(Measurement)。維:數據立方中的空間坐標軸,例如時間維、地區維、產品維。粒度:每個維可以分成若干等級,例如時間維可以分成年、月、日,描述了不同的查詢層次。度量:是數據的實際意義,描述數據“是什么”,即一個數值的測量指標,如:人數、單價、銷售量等。4.3數據倉庫的建模模型23/431.星型模型:
度量的實際數據存放在事實表中。維的詳細信息,如不同的層次劃分和相應數據等在維表中存儲,事實表中存放各個維的標識碼鍵。事實表和維表將通過這些鍵關聯起來,構成一種星型模型。這種模式圖像星星爆發,維表圍繞中心事實表顯示在射線上。在星型模式中,每維只用一個表表示,每個表包含一組屬性。4.3數據倉庫的建模模型24/434.3數據倉庫的建模模型25/432.雪花模型:對于層次復雜的維,為避免冗余數據占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴展稱為雪花模型。
雪花模型是星型模型的變種,其中某些維表是規范的,把數據進一步分解到附加的表中。這種模型圖形成類似于雪花的形狀。4.3數據倉庫的建模模型26/4327/434.4OLAP與數據集成 4.4.1聯機分析處理
4.4.2數據集成28/43聯機分析處理聯機分析處理,On-LineAnalysisProcessing,支持通過多維的方式對數據進行分析、查詢和生成報表,其基本功能是對用戶當前及歷史數據進行分析以輔助領導決策。相關概念:維:數據立方中的空間坐標軸,例如時間維、地區維、產品維。粒度:每個維可以分成若干等級,例如時間維可以分成年、月、日,描述了不同的查詢層次。4.4OLAP與數據集成29/43OLAP特性(1)多維性:多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持。(2)快速性:用戶對OLAP的快速反應能力有很高的要求。系統應能在5秒內對用戶的大部分分析要求做出反應。
(3)可分析性:OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。(4)共享性:滿足大量用戶間數據的共享(5)信息性:不論數據量有多大,也不管數據存儲在何處,OLAP系統應能及時獲得信息,并且管理大容量信息。4.4OLAP與數據集成30/43OLTPvsOLAP
OLTP
細節的
綜合的或派生的
當前的
歷史的
可更新
不可更新
需求事先可知道
需求事先不知道
符合系統生命周期
完全不同的生命周期
對性能要求高
對性能要求相對寬松
事務驅動
數據驅動
面向應用
面向分析
一次操作數據量小
一次操作數據量大
支持日常事務
支持管理需求
OLAP4.4OLAP與數據集成31/43OLAP的分析思路
OLAP是決策支持領域的一部分。傳統的查詢和報表工具是告訴你數據庫中都有什么(whathappened),OLAP則更進一步告訴你下一步會怎么樣(Whatnext)、和如果我采取這樣的措施又會怎么樣(Whatif)。用戶首先建立一個假設,然后用OLAP檢索數據庫來驗證這個假設是否正確。比如,一個分析師想找到什么原因導致了貸款拖欠,他可能先做一個初始的假定,認為低收入的人信用度也低,然后用OLAP來驗證他這個假設。如果這個假設沒有被證實,他可能去察看那些高負債的賬戶,如果還不行,他也許要把收入和負債一起考慮,一直進行下去,直到找到他想要的結果或放棄。4.4OLAP與數據集成32/43OLAP中的操作應用OLAP工具進行的分析操作主要有:鉆取、旋轉、切片鉆取:沿著維上粒度的粗細方向進行的分析操作,改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。rollup是在某一維上將低層次的細節數據概括到高層次的匯總數據;而drilldown則相反,它從匯總數據深入到細節數據進行觀察旋轉:參與分析的維的變化,即在表格中重新安排維的放置(例如行列互換)切片:將某維固定觀察其他維的變化,即一部分維上選定值后,關心度量數據在剩余維上的分布。4.4OLAP與數據集成33/43OLAP的分析方法(一)鉆取按時間維向下鉆取按時間維向上鉆取604.4OLAP與數據集成34/43OLAP的分析方法(二)旋轉4.4OLAP與數據集成35/43OLAP的分析方法(三)切片、切塊4.4OLAP與數據集成36/43數據集成數據集成的目的:1.訪問多種數據源的數據2.轉換成統一格式3.校驗數據的完整性4.存儲數據到數據倉庫中4.4OLAP與數據集成37/43數據集成的四個階段1.數據抽取(DataExtraction)使用規定的標準選擇數據,并把數據傳送到數據倉庫中2.數據轉換(DataTransformation)建立不同數據源的源字段到數據倉庫字段的映射3.數據清理(DataCleaning)把事實表中的屬性字段對應的值逐個在維表中查詢,審查字段值是否合理,并加以記錄4.數據裝載(DataLoading)將經過數據抽取、轉換、清理的數據,以及經過校正的臟數據導入到數據倉庫4.4OLAP與數據集成數據集成38/434.5
數據倉庫的實施 39/434.5數據倉庫的實施
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 糧食工程專業實習總結報告
- 私立醫院保安服務標準化方案
- 體育賽事心臟驟停應急救助流程
- 手術室清潔流程及感染控制措施
- DB32/T 4483.2-2023“兩客一危”道路運輸雙重預防機制建設指南第2部分:安全生產隱患排查治理
- 低年級學生數學思維發展計劃
- 金融專業畢業實習報告5000字范文
- 小學健康知識普及教學計劃
- 2025年食品烘焙設備項目深度研究分析報告
- 城市更新工程施工配合策略
- 胸腔積液課件教學課件
- 中建做好現場五大材料消耗量管控
- 水閘安全鑒定報告書
- 湖南省工程建設地方標準分布式光伏工程驗收標準
- 高等數學(第五版)課件 5.1 定積分的概念與性質
- 武漢理工大學網絡教育學習導論期末復習題
- 小學校園防欺凌班會課件
- 山東省臨沂市蘭陵縣2025年下學期第三次考試英語試題(輔導班)試題含答案
- 餐飲員工手冊和規章制度
- 江蘇省徐州市2022-2023學年八下期末數學試題(原卷版)
- 特殊教育概論-期末大作業-國開-參考資料
評論
0/150
提交評論