




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、7/4/2022大數據培訓-數據倉庫概述v講師:楊勇 v2015年7月v電話:133820447287/4/2022數據倉庫提綱v 數據倉庫概念v 數據倉庫體系結構及組件v 數據倉庫設計v 數據倉庫技術(與數據庫技術的區別)7/4/2022基本概念數據倉庫產生背景v 數據倉庫技術是隨著人們對大型數據庫系統研究的不斷深入,在傳統數據庫技術基礎之上發展而來的,其主要目的就是為決策提供支持為決策提供支持,為為OLAP、數據挖掘深層次的分析提供、數據挖掘深層次的分析提供平臺平臺。v 數據倉庫是一個和實際應用密不可分的研究領域,與傳統數據庫相比,數據倉庫不僅引入了許多新的概念,而且在體系結構、數據組織體
2、系結構、數據組織等方面,均有其自身的特點。7/4/2022基本概念數據倉庫定義 數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented )、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,主要用于支持管理決策和信息的全局共享。 -數據倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”(建立數據倉庫) 7/4/2022基本概念數據倉庫特征Inmon,1996v 面向主題u 一個主題領域的表來源于多個操作型應用(如:客戶主題,來源于:
3、定單處理;應收帳目;應付帳目;)u 典型的主題領域:客戶;產品;交易;帳目u 主題領域以一組相關的表來具體實現u 相關的表通過公共的鍵碼聯系起來(如:顧客標識號Customer ID)u 每個鍵碼都有時間元素(從日期到日期;每月累積;單獨日期)u 主題內數據可以存儲在不同介質上(綜合級,細節級,多粒度)v 集成 數據提取、凈化、轉換、裝載v 穩定性 批處理增加,倉庫已經存在的數據不會改變v 隨時間而變化(時間維)v 管理決策支持7/4/2022基本概念Data Mart, ODSvData Mart 數據集市 - 小型的,面向部門或工作組級數據倉庫。vOperation Data Store
4、操作數據存儲 ODS是能支持企業日常的全局應用的數據集合,是不同于DB的一種新的數據環境, 是DW 擴展后得到的一個混合形式。四個基本特點:面向主題的(Subject -Oriented)、集成的、可變的、 當前或接近當前的。7/4/2022基本概念ETL, 元數據,粒度,分割vETL(也有ELT) ETL(Extract/Transformation/Load)數據裝載、轉換、抽取工具。Microsoft DTS; IBM Visual Warehouse etc.v元數據 關于數據的數據,用于構造、維持、管理、和使用數據倉庫,在數據倉庫中尤為重要。v粒度 數據倉庫的數據單位中保存數據的細化
5、或綜合程度的級別。細化程度越高,粒度越小。v分割 數據分散到各自的物理單元中去,它們能獨立地處理。7/4/2022數據 數據倉庫是一個建設過程,而不是一個產品。數據倉庫數據倉庫是通過對來自不同的數據源進行統一處理及管理,通過靈活的展現是通過對來自不同的數據源進行統一處理及管理,通過靈活的展現方法來幫助決策支持。方法來幫助決策支持。數據倉庫最新理解數據數據信息信息知識知識決策決策獲取管理使用7/4/2022數據倉庫提綱v 數據倉庫概念v 數據倉庫體系結構及組件v 數據倉庫設計v 數據倉庫技術(與數據庫技術的區別)7/4/2022數據倉庫體系結構及組件v 體系結構v ETL工具v 元數據庫(Rep
6、ository)及元數據管理v 數據訪問和分析工具7/4/2022體系結構 源數據庫系統源數據庫系統數據抽取、轉換加載數據抽取、轉換加載WarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadata數據集市數據集市數據訪問與分析數據訪問與分析中央數據倉庫中央數據倉庫Central DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCle
7、ansingToolRelationalAppl. PackageLegacyExternalRDBMSRDBMS7/4/2022帶ODS的體系結構源數據庫系統源數據庫系統數據抽取、轉換、加載數據抽取、轉換、加載WarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadata數據集市數據集市數據訪問與分析數據訪問與分析中央數據倉庫和中央數據倉庫和ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocal MetadataL
8、ocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-UserDW Tools7/4/2022一個實際的數據倉庫的完整架構數據轉換數據轉換中央數據倉庫中央數據倉庫信息展現信息展現業務用戶業務用戶源數據源數據數據獲取數據獲取數據管理數據管理數據使用數據使用項目管理 數據倉庫實施指導方法論業務規劃 信息評估 邏輯數據 模型設計 物理數據模型設計數據庫管理 元數據管理 應用開發 顧問咨詢 知識轉移 營銷系統營銷系統財務系統財
9、務系統物資系統物資系統PMS系統系統抽取轉化過濾加載隨即查詢隨即查詢報表報表多維分析多維分析數據挖掘數據挖掘Portal集成集成RelationalTransformationOLAPData Mining數據集市企業級企業級EDW直接用戶直接用戶(客戶端客戶端)Olap用戶用戶Web用戶用戶應用應用服務器服務器決策者分析員研究員查詢人員7/4/2022數據倉庫的焦點問題-數據的獲得、存儲和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse DatamartDatamar
10、tRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool7/4/2022ETL工具v 去掉操作型數據庫中的不需要的數據v 統一轉換數據的名稱和定義v 計算匯總數據和派生數據v 估計遺失數據的缺省值v 調節源數據的定義變化 7/4/2022ETL工具體系結構7/4/2022元數據庫及元數據管理v元數據分類:技術元數據;商業元數據;數據倉庫操作型信息。-Alex Berson etc, 1999v技術元數據 包括為數據倉庫設計人員和管理員使用的數據倉庫數據信息,用于執行數據倉庫開發和管理任務。包括: 數據源信息 轉換描述
11、(從操作數據庫到數據倉庫的映射方法,以及轉換數據的算法) 目標數據的倉庫對象和數據結構定義 數據清洗和數據增加的規則 數據映射操作 訪問權限,備份歷史,存檔歷史,信息傳輸歷史,數據獲取歷史,數據訪問,等等7/4/2022元數據庫及元數據管理v 商業元數據 給用戶易于理解的信息,包括: 主題區和信息對象類型,包括查詢、報表、圖像、音頻、視頻等 Internet主頁 支持數據倉庫的其它信息,例如對于信息傳輸系統包括預約信息、調度信息、傳送目標的詳細描述、商業查詢對象,等v數據倉庫操作型信息 例如,數據歷史(快照,版本),擁有權,抽取的審計軌跡,數據用法 7/4/2022數據訪問和分析工具v 報表v
12、 OLAPv 數據挖掘7/4/2022數據倉庫設計v 自上而下(Top-Down)v 自底而上(Bottom Up)v 混合的方法v 數據倉庫建模7/4/2022自上而下設計方法v 建立企業數據倉庫H通用數據模型通用數據模型H數據重新執行數據重新執行H減少冗余和不一致減少冗余和不一致 H詳細和歷史數據詳細和歷史數據; 全局數據知識發現全局數據知識發現v 根據企業數據倉庫(EDW)建立數據集市H部門級數據倉庫部門級數據倉庫H主要為匯總數據主要為匯總數據H直接依賴有效的數據倉庫直接依賴有效的數據倉庫外部數據外部數據操作數據操作數據企業數據倉庫企業數據倉庫7/4/2022自底而上設計方法l創建部門的
13、數據集市l范圍局限于一個主題區域范圍局限于一個主題區域l快速的快速的 ROI - 局部的商業需求得局部的商業需求得到滿足到滿足l本部門自治本部門自治 - 設計上具有靈活性設計上具有靈活性l對其他部門數據集市是一個好的對其他部門數據集市是一個好的指導指導l容易復制到其他部門容易復制到其他部門 l需要為每個部門做數據重建需要為每個部門做數據重建l有一定級別的冗余和不一致性有一定級別的冗余和不一致性l一個切實可行的方法一個切實可行的方法l擴大到企業數據倉庫l 創建創建EDB作為一個長期的目標作為一個長期的目標局部數據集市局部數據集市外部數據外部數據操作型數據操作型數據 (全部全部)操作型數據操作型數
14、據(局部局部)操作型數據操作型數據(局部局部)局部數據集市局部數據集市企業數據倉庫企業數據倉庫EDB7/4/2022數據倉庫建模 星型模式DateMonthYearDateCustIdCustNameCustCityCustCountryCust銷售事實表 Date Product Store Customer unit_sales dollar_sales Yen_sales度量ProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore7/4/2022數據倉庫建模 雪花模式 DateMonthDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sales度量ProductNoProdNameProdDescCategor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家庭教育中的運動教育實踐
- 教育類文檔的制作與傳播技巧探討
- 2025年中小微企業供應鏈金融創新應用與政策環境案例分析報告
- 食堂食品采購食品安全習題及解析
- 河北對外經貿職業學院《急診與急救》2023-2024學年第一學期期末試卷
- 河北資源環境職業技術學院《人體組織學及解剖學實驗》2023-2024學年第一學期期末試卷
- 福建農業職業技術學院《太極推手》2023-2024學年第一學期期末試卷
- 南京郵電大學《俄羅斯文學俄》2023-2024學年第一學期期末試卷
- 唐山工業職業技術學院《檢驗診斷學》2023-2024學年第一學期期末試卷
- 貴州裝備制造職業學院《現代微生物實驗技術》2023-2024學年第一學期期末試卷
- 2024年江西省公安廳招聘警務輔助人員考試真題
- 砂石銷售提成管理制度
- 2025年湖南省中考生物試卷及答案
- 2025至2030中國地效飛行器行業產業運行態勢及投資規劃深度研究報告
- 高效化學滅菌技術-洞察及研究
- 2025年重慶市中考語文試卷(含解析)
- 2025年湖北省普通高中學業水平合格性考試模擬(三)歷史試題(含答案)
- 廣東省中山市2023-2024學年八年級下學期語文期末試卷(含答案)
- 融媒體保密管理制度
- 2025至2030中國消防產業市場深度調研及發展前景及有效策略與實施路徑評估報告
- 2025年高考全國二卷數學高考真題解析 含參考答案
評論
0/150
提交評論