




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據倉庫入門課件Data Warehouse overview數據倉庫入門課件數據倉庫管理的歷史時期數據倉庫管理的歷史時期l人工管理方式: 這一時期是在20世紀50年代中期以前,這一階段的計算機應用主要用于科學計算,外存只有紙帶、磁帶、卡片等,數據處理的方式基本上是批處理。這一時期數據管理的特點是:數據不保存;沒有專用的數據管理軟件,每個應用都必須自己完成存儲結構、存取方法、輸入輸入輸出等數據管理功能;一組數據對應一個應用,這使得程序之間可能有重復的數據。l 文件系統管理 這一階段在20世紀50年代后期至60年代中后期,計算機應用開始用于信息管理,由于數據存儲、檢索和維護等需求,使得相應的研究
2、開展起來了,在硬件和軟件方面都得到了發展,磁盤磁鼓出現,操作系統也產生。這一時期數據管理的特點主要是: 數據保存,數據可以長期保存在磁盤上; 有操作系統的文件管理系統,文件結構化,數據的物理結構和邏輯結構有了區別; 有了存儲文件后,數據可以不再僅僅屬于某一個應用,而能進行一定程度的復用。 但文件系統在數據管理方面存在缺陷,表現在數據冗余度大,數據和程序之間缺乏獨立性,容易造成數據的不一致性。l 數據庫系統(60年代末開始)數據倉庫入門課件數據倉庫的發展的動力數據倉庫的發展的動力l業務需求驅動主要是詳細的分析科學的經營l市場活動的細化和實施等l數據驅動數據量不斷擴大沒有數據倉庫等相關技術很難全面
3、了解企業l項目驅動數據倉庫入門課件數據倉庫定義數據倉庫定義lInmon的定義:DataWarehouse is a subject-oriented,integrated,time-variant, and nonvolatile collection of data in support of managements decision making processl數據倉庫的特點數據倉庫的數據是面向主題的 數據倉庫的數據是集成的 數據倉庫的數據是與時間相關的 數據倉庫的數據是穩定的 數據倉庫入門課件簡單的數據倉庫架構簡單的數據倉庫架構數據倉庫入門課件數據倉庫實際應用例子數據倉庫實際應用例子數
4、據倉庫入門課件數據集成數據集成l企業全面的經營數據OLTP分散在各個不同系統中(事件獨立)l銀行:卡、儲蓄、信貸、會計、中間業務等等系統lBOSS增值業務財務l集成數據建立關聯l事件關聯(業務之間是相互關聯)l客戶數據統一歷史數據l大量歷史數據的保存問題中國建設銀行一個中等規模的省產生每天的交易詳細記錄大約200M通常在業務系統中只保存當日數據歷史數據查詢困難數據倉庫入門課件數據倉庫數據處理流程數據倉庫數據處理流程數據格式檢查源數據清潔、抽取、轉換ODS數據抽取、轉換裝載數據到DW裝載到OLAP報表展現業務系統數據/外部數據DW數據抽取、轉換DW數據生成報表裝載數據到ODS分析性查詢數據倉庫入
5、門課件 ETL簡述簡述數據倉庫入門課件ETL定義定義ETL: Extract-Transform-Load 數據抽?。‥xtract)、轉換(Transform)、裝載(Load)的過程。 ETL是BI/DW的核心和靈魂,按照統一的規則集成并提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟數據倉庫入門課件ETL應用過程應用過程l數據抽取 抽取主要是針對各個業務系統及不同網點的分散數據,充分理解數據定義后,規劃需要的數據源及數據定義,制定可操作的數據源,制定增量抽取的定義。 (數據源和文件等多種形式)l數據傳輸 數據傳輸是通過網絡負責把遠程的數據到本地目錄
6、下。 數據倉庫入門課件ETL應用過程應用過程l數據的清洗和轉換 轉換主要是針對數據倉庫建立的模型,通過一系列的轉換來實現將數據從業務模型 到分析模型,通過內建的庫函數、自定義腳本或其他的擴展方式,實現了各種復雜的 轉換,并且支持調試環境,清楚的監控數據轉換的狀態。數據轉換是真正將源數據變為目標數據的關鍵環節,它包括數據格式轉,換數據類型轉換、數據匯總計算、數據拼接等等。 清洗主要是針對系統的各個環節可能出現的數據二義性、重復、不完整、違反業務 規則等問題,允許通過試抽取,將有問題的紀錄先剔除出來,根據實際情況調整相應 的清洗操作。 數據倉庫入門課件ETL應用過程應用過程l數據加載入庫 數據加載
7、主要是將經過轉換和清洗的數據加載到數據倉庫里面,即入庫,可以通過數據文件直接裝載或直連數據庫的方式來進行數據裝載,可以充分體現高效性lETL調度 ETL的調度控制方式有兩種: 自動方式 由系統每天定時或準實時啟動后臺程序,自動完成數據倉庫ETL處理流程。 手動方式 用戶可以通過前臺監控平臺,對單個目標或批量目標進行手工調度。 數據倉庫入門課件ETL應用過程應用過程l監控 主要是監控ETL的整個過程,通過掃描ETL各模塊的日志中的關鍵值,如記錄時間等信息與當前的狀態作比較,如果超過某一個值,則認為該模塊運行可能出現問提,應告警。 數據倉庫入門課件ETL工具框架工具框架數據倉庫入門課件OLAP簡述
8、簡述數據倉庫入門課件OLAP&OLTP(on-line transaction processing)OLTPOLAP用戶操作人員,低層管理人員決策人員,高級管理人員功能日常操作處理分析決策DB 設計面向應用面向主題數據當前的, 最新的細節的, 二維的分立的歷史的, 聚集的, 多維的集成的, 統一的存取讀/寫數十條記錄讀上百萬條記錄工作單位簡單的事務復雜的查詢用戶數上千個上百個DB 大小100MB-GB100GB-TB數據倉庫入門課件什么是什么是OLAP定義定義1 :OLAP(聯機分析處理聯機分析處理)是針對特定問題的聯機數據訪問和分析。通過對信息(維數據)的多種可能的觀察形式進行快速、穩定一
9、致和交互性的存取,允許管理決策人員對數據進行深入觀察。定義定義2 :OLAP(聯機分析處理聯機分析處理) 是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。(OLAP委員會的定義)OLAP的目標的目標是滿足決策支持或多維環境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。數據倉庫入門課件相關基本概念相關基本概念1.維:維:是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維(時間維、地理維
10、等)。2.維的層次:維的層次:人們觀察數據的某個特定角度(即某個維)還可以存在細節程度不同的各個描述方面(時間維:日期、月份、季度、年)。3.維的成員:維的成員:維的一個取值。是數據項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)4.多維數組:多維數組:維和變量的組合表示。一個多維數組可以表示為:(維1,維2,維n,變量)。(時間,地區,產品,銷售額)5.數據單元數據單元(單元格單元格):多維數組的取值。(2000年1月,上海,筆記本電腦,$100000)數據倉庫入門課件OLAP特性特性(1)(1)快速性快速性: :用戶對OLAP的快速反應能力有很高的要求。系統應能在5秒內對用
11、戶的大部分分析要求做出反應。(2)(2)可分析性可分析性: :OLAP系統應能處理與應用有關的任何邏輯分析和統計分析。(3)(3)多維性多維性: :多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持。(4)(4)信息性信息性: :不論數據量有多大,也不管數據存儲在何處,OLAP系統應能及時獲得信息,并且管理大容量信息。數據倉庫入門課件OLAP表現方式表現方式l鉆取改變維的層次,變換分析的粒度向上鉆?。╮oll up)和向下鉆?。╠rill down)l切片和切塊在一部分維上選定值后,關心度量數據在剩余維上的分布如果剩余的維只有兩個,則是切片;如果
12、有三個,則是切塊l旋轉(pivot)旋轉是變換維的方向,即在表格中重新安排維的放置(例如行列互換)數據倉庫入門課件OLAP的分析方法的分析方法(一一)切片、切塊切片、切塊數據倉庫入門課件OLAP的分析方法的分析方法(二二)鉆取鉆取按時間維向下鉆取按時間維向上鉆取60數據倉庫入門課件OLAP的分析方法的分析方法(三三)旋轉旋轉數據倉庫入門課件OLAP分類分類按照存儲方式OLAPMOLAPHOLAPROLAP按照處理地點Client OLAPServer OLAP數據倉庫入門課件OLAP實現方法實現方法lROLAP數據存儲:基于關系數據庫結構分類l事實表:用來存儲數據和維關鍵字l維度表:每個維至少
13、使用一個表來存放維的層次、成員類別等維的描述信息 數據模型l星型模式l雪花模式 lMOLAP(Multidimensional OLAP)數據存儲:使用多維數組存儲數據l基于多維數據組織的OLAP實現l以多維數據組織方式為核心結構分類:l立方塊(Cube)lHOLAP(Hybrid OLAP)數據存儲:基于混合數據組織的OLAP實現l其他實現方法數據倉庫入門課件OLTP、ROLAP與與MOLAP模式模式數據倉庫入門課件ROLAP的的星型模式星型模式(Star Schema)l事實表:用來存儲事實的度量值和各個維的碼值。l維 表:用來存放維的元數據(維的層次、成員類別等描述信息)。Time_id
14、Sales TableDiscount%DollarsUnitsFact TableMarket_idProduct_idScenarioProduct_idProduct TableSizeBrandProduct_DescDimension TableTime_idYearQuarterPeriod_DescPeriod TableDimension TableScenario TableActualProfitScenarioDimension TableMarket_idMarket TableRegionDistrictMarket_DescDimension Table數據倉庫入門
15、課件MOLAP的多維立方體的多維立方體(Multicube)數據倉庫入門課件ROLAP與與MOLAP比較比較lROLAP優勢沒有大小限制現有的關系數據庫的技術可以沿用.可以通過SQL實現詳細數據與概要數據的存儲現有關系型數據庫已經對OLAP做了很多優化,包括并行存儲、并行查詢、并行數據管理、基于成本的查詢優化、位圖索引、SQL 的OLAP擴展(cube,rollup)等大大提高ROALP的速度lMOLAP優勢性能好、響應速度快專為OLAP所設計支持高性能的決策支持計算l復雜的跨維計算l多用戶的讀寫操作l行級的計算數據倉庫入門課件ROLAP與與MOLAP比較比較(續續)lROLAP缺點一般比MD
16、D響應速度慢不支持有關預計算的讀寫操作SQL無法完成部分計算l無法完成多行的計算l無法完成維之間的計算lMOLAP缺點增加系統復雜度,增加系統培訓與維護費用受操作系統平臺中文件大小的限制,難以達到TB 級(只能1020G)需要進行預計算,可能導致數據爆炸無法支持維的動態變化缺乏數據模型和數據訪問的標準數據倉庫入門課件OLAP體系結構體系結構lROLAP Architecture lMOLAP Architecture SQL Result SetInfo.RequestResult SetDatabase Server R DBMSFront-end ToolROALP Architectur
17、eROLAP ServerMetadataRequestProcessingSQL Result SetInfo.RequestResult SetLoadDatabase Server RDBMSFront-end ToolMOALP ArchitectureMOLAP ServerMetadataRequestProcessing數據倉庫入門課件OLAP體系結構體系結構(續續)lHOLAP ArchitectureResult SetORSQL QuerySQL Result SetInfo.RequestResult SetLoadDatabase Server RDBMSFront-e
18、nd ToolHybrid ArchitectureMOLAP Server數據倉庫入門課件流行的流行的OLAP工具介紹工具介紹lOLAP產品lHyperion EssbaselOracle ExpresslIBM DB2 OLAP ServerlSybase Power dimension lInformix MetacubelCA OLAP SERVERlMicrosoft analysis serviceslBriolCognoslBusiness ObjectlMicroStrategy lOLAP產品涉及的業務操作由外部或內部數據源批量裝入數據由業務系統增量裝入數據沿數據層次匯總數據對基于業務模型的新數據進行計算時間序列分析高復雜的查詢沿數據層次細化分析隨機查詢多個聯機會話(多用戶同時訪問)數據倉庫入門課件OLAP展望展望l面向對象的聯機分析處理O3LAP(Object-Oriented OLAP)l對象關系的聯機分析處理OROLAP (Object Relat
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 美術課件兒童牙膏
- 美術大象介紹課件
- 家政行業知識培訓課件
- 露天停車場消防安全知識
- 生產安全培訓課程
- 安全生產中的三違
- 2025年模糊控制變頻空調器項目申請報告模板
- 2025年遠傳燃氣表項目提案報告模范
- 網頁課件比賽獎品小學生
- 2025至2030中國導電碳紙市場風險評估與未來前景展望報告
- 杭州市高級中學2022年高一新生素質測試(分班考)模擬試卷
- IPC-A-610國際標準中英文對照(doc 17)
- JJF(建材)110-2019水泥雷氏夾膨脹測定儀校準規范-(高清現行)
- 《納尼亞傳奇》閱讀交流(課堂PPT)
- 某航空公司教學材料之十八案例
- 縣級課題研究過程記錄
- 預制場(梁場)建設方案
- 專業課程融入思政工作的教學設計理念與方法(課堂PPT)
- 安川CDBR系列 制動單元 用戶手冊_圖文
- 長沙不動產登記申請書
- 鍋爐拆除施工方案(最新)
評論
0/150
提交評論