數據倉庫多維數據庫模型_第1頁
數據倉庫多維數據庫模型_第2頁
數據倉庫多維數據庫模型_第3頁
數據倉庫多維數據庫模型_第4頁
數據倉庫多維數據庫模型_第5頁
已閱讀5頁,還剩25頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫多維數據庫模型第1頁,共30頁,2023年,2月20日,星期六何謂數據倉庫?

一種面向分析的環境;一種把相關的各種數據轉換成有商業價值的信息的技術。第2頁,共30頁,2023年,2月20日,星期六1、從數據庫到數據倉庫數據庫系統能夠很好的用于事務處理,但它對分析處理的支持一直不能令人滿意。特別是當以業務處理為主的聯機事務處理(OLTP)應用和以分析處理為主的DSS應用共存于一個數據庫系統時,就會產生許多問題。例如,事務處理應用一般需要的是當前數據,主要考慮較短的響應時間;而分析處理應用需要是歷史的、綜合的、集成的數據,它的分析處理過程可能持續幾個小時,從而消耗大量的系統資源。第3頁,共30頁,2023年,2月20日,星期六

人們逐漸認識到直接用事務處理環境來支持DSS是行不通的。要提高分析和決策的有效性,分析型處理及其數據必須與操作型處理及其數據分離。必須把分析型數據從事務處理環境中提取出來,按照DSS處理的需要進行重新組織,建立單獨的分析處理環境。數據倉庫技術正是為了構建這種新的分析處理環境而出現的一種數據存儲和組織技術。第4頁,共30頁,2023年,2月20日,星期六操作型數據分析型數據細節的綜合的,或提煉的在存取瞬間是準確的代表過去的數據可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期對性能要求高對性能要求寬松一個時刻操作一個單元一個時刻操作一個集合事物驅動分析驅動面向應用面向分析一次操作數據量小一次操作數據量大支持日常操作支持管理需求第5頁,共30頁,2023年,2月20日,星期六數據倉庫與決策支持系統(DSS)用戶在進行決策制定時需要得到企業各方面的信息,因此用戶一般首先根據各個業務部門數據庫中的數據,創建數據倉庫,存儲各種歷史信息和匯總信息。對數據倉庫的進一步應用由功能強大的分析工具來實現。現在主要有三類分析工具可用于決策支持。第一類能夠支持涉及分組和聚集查詢,并能夠對各種復雜的布爾條件、統計函數和時間序列分析提供支持的系統。主要由上述查詢組成的應用稱為聯機分析處理,即OLAP。在支持OLAP查詢的系統中,數據最好看成是一個多維數組。第6頁,共30頁,2023年,2月20日,星期六

第二類系統仍為支持傳統SQL查詢的DBMS,但為了有效地執行OLAP查詢而進行了特殊的設計。這些系統可以看作是為決策支持應用進行了優化的關系數據庫系統。許多關系數據庫廠商對他們的產品進行了擴展,并且隨著時間的推移,專門的OLAP系統和支持決策支持的關系數據庫系統之間的差別將逐漸取消。第7頁,共30頁,2023年,2月20日,星期六

第三類的分析工具可用于在大量的數據集合中,找到有意義的數據趨勢或者模式,而不是上面提到的復雜數據查詢。在數據分析過程中,盡管分析者能夠判定得到的數據模式是否有意義,但是生成查詢來得到有意義的模式還是很困難的。例如,分析者查看信用卡使用記錄,希望從中找出不正常的信用卡使用行為,以表明是被濫用的丟失的信用卡;商人希望通過查看客戶記錄找出潛在的客戶來提高收益。許多應用涉及的數據量很大,很難用人工分析或者傳統的統計分析方法進行分析,數據挖掘的目的就是對這種大量數據的分析提供支持。第8頁,共30頁,2023年,2月20日,星期六2、數據倉庫的定義及特征數據倉庫理論的創始人W.H.Inmon在其《BuildingtheDataWarehouse》一書中,給出了數據倉庫的四個基本特征:面向主題,數據是集成的,數據是不可更新的,數據是隨時間不斷變化的。第9頁,共30頁,2023年,2月20日,星期六采購子系統:

訂單(訂單號,供應商號,商品號,類別,單價。數量,總金額,日期,…

)供應商(供應商號,供應商名,地址,電話,…)銷售子系統:客戶(客戶號,姓名,地址,電話,…

)銷售(客戶號,商品號,數量,單價,日期,…

)庫存子系統:進庫單(編號,商品號,數量,單價,日期,…

)出庫單(編號,商品號,數量,單價,日期,…

)庫存(商品號,庫房號,類別,單價,庫存數量,總金額,日期,…

)第10頁,共30頁,2023年,2月20日,星期六

商品固有信息:商品號,類別,單價,顏色,…

商品采購信息:商品號,類別,供應商號,供應日期,單價,數量,…

商品銷售信息:商品號,客戶號,數量,單價,銷售日期,…

商品庫存信息:商品號,庫房號,庫存數量,日期,…

)商品主題域:采購子系統銷售子系統庫存子系統第11頁,共30頁,2023年,2月20日,星期六3、數據倉庫中的數據組織數據倉庫中的數據分為四個級別:早期細節級,當前細節級,輕度綜合級,高度綜合級。1985~1998年銷售明細表1998~2003年銷售明細表1998~2003年每月銷售表1998~2003年每季度銷售表第12頁,共30頁,2023年,2月20日,星期六DW中還有一類重要的數據:元數據(metedata)。元數據是“關于數據的數據”(RDBMS中的數據字典就是一種元數據)。數據倉庫中的元數據描述了數據的結構、內容、索引、碼、數據轉換規則、粒度定義等。第13頁,共30頁,2023年,2月20日,星期六4、數據倉庫系統結構RDBMS數據文件其他

綜合數據

當前數據

歷史數據

元數據抽取、轉換、裝載數據倉庫OLAP工具DM工具

查詢工具分析工具第14頁,共30頁,2023年,2月20日,星期六二、數據倉庫設計數據倉庫的設計分為如下三個階段:

數據倉庫建模

分析主題域確定粒度層次確定數據分割策略

構建數據倉庫

數據的存儲結構與存儲策略

DSS應用編程

第15頁,共30頁,2023年,2月20日,星期六三、操作數據存儲(ODS)在許多情況下,DB-DW的兩層體系結構并不適合企業的數據處理要求。因為,雖然可以粗略地把數據處理分成操作型和分析型,但這兩種處理處理并不是涇渭分明的。

ODS(OperationalDataStore)作為一個中間層次,一方面,它包含企業全局一致的、細節的、當前的或接近當前的數據,另一方面,它又是一個面向主題、集成的數據環境,適合完成日常決策的分析處理。第16頁,共30頁,2023年,2月20日,星期六四、數據倉庫的實現數據倉庫的工具主要有:數據預處理工具,數據分析(OLAP)工具,數據挖掘工具,OLAP服務器。第17頁,共30頁,2023年,2月20日,星期六

數據倉庫和OLAP工具基于多維數據模型(在數據倉庫中,通常以多維方式來存儲數據。)。基本概念

維:人們觀察數據的特定角度。

維的層次:人們觀察數據的特定角度可能存在細節程度不同的多個描述方面,我們稱其為維的層次。多維分析的基本動作上卷:匯總數據

下鉆:明細數據

切片,旋轉,。第18頁,共30頁,2023年,2月20日,星期六Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay第19頁,共30頁,2023年,2月20日,星期六TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum第20頁,共30頁,2023年,2月20日,星期六

產品銷售情況某年某月產品銷售情況選定兩個維:產品維和地區維時間維數據切片產品維地區維產品維地區維第21頁,共30頁,2023年,2月20日,星期六基于RDBMS的數據倉庫實現

關系數據庫將多維數據庫中的多維結構分為兩類:一類是事實表,用來存儲事實的度量值以及各個維的碼值;另一類是維表。

數據倉庫的設計模型有:星型模式,雪花模式,混合模式

數據倉庫的設計也可以理解為面向OLAP的數據庫設計。第22頁,共30頁,2023年,2月20日,星期六

在星型模式中,主要數據存儲在事實表中,沒有冗余,并符合3NF或BCNF。維值信息存儲在維表中。維表一般不需要規范化。主要原因是維表是靜態的,是否會產生因更新而導致異常也就不重要了。ProductsPidpnamecategorypriceLocationsLocidcitystatecountryPidtimeidlocidsalesTimeiddatemonthquarteryearholiday_flagTimesSales第23頁,共30頁,2023年,2月20日,星期六定單號銷售員號客戶號產品號日期標識地區名稱數量總價定單號定貨日期客戶號客戶名稱客戶地址銷售員號姓名城市產品號產品名稱單價日期標識日月年地區名稱省事實表星型模式第24頁,共30頁,2023年,2月20日,星期六定單號銷售員號客戶號產品號日期標識地區名稱數量總價定單號定貨日期客戶號客戶名稱客戶地址銷售員號姓名城市產品號產品名稱單價日期標識日月年地區名稱省事實表雪花模式產品號公司代碼公司代碼公司名稱地址第25頁,共30頁,2023年,2月20日,星期六五、SQLServer2000數據倉庫工具數據轉換服務(DTS)

用于向數據倉庫中加載數據數據復制用于分布式數據倉庫分布和加載數據OLEDB

提供應用程序與數據源的接口APIAnalysisService

用于采集和分析數據倉庫中的數據EnglishQuery

提供使用英語語言查詢數據倉庫MetaDataService

瀏覽數據倉庫中的元數據PivotTable服務用于定制操作多維數據的客戶端接口第26頁,共30頁,2023年,2月20日,星期六

在數據倉庫或者數據市場中的信息可以由聯機分析(OLAP)處理,OLAP可以有效地以由維度和度量組成的立方體方式查看數據。然而,存在著這種問題:雖然OLAP合計是在數據倉庫中可以達到的查詢性能的關鍵因素,但是存儲這些合計數據的成本是磁盤存儲量。事實上,合計數據量可以輕易地超過原有的數據量。另外,當維度和合計量提高時,所要求的OLAP數據存儲量也大大地提高。這種對存儲量的極大要求一般稱為數據爆炸。OLAP描述的是一種多維數據服務,這種服務的設計目的是保證分析員、經理和決策者針對特定的問題,通過快速、一致、交互式的實時數據訪問和分析,獲得有創意的發現。第27頁,共30頁,2023年,2月20日,星期六

在SQLServer2000中,有3種用于存儲數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論