數據倉庫系統的體系結構_第1頁
數據倉庫系統的體系結構_第2頁
數據倉庫系統的體系結構_第3頁
數據倉庫系統的體系結構_第4頁
數據倉庫系統的體系結構_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據源是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放于RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息等等;數據的存儲與管理是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別于傳統數據庫,同時也決定了其對外部數據的表現形式。要決定采用什么產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為)。O

2、LAP(聯機分析處理)服務器對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。其具體實現可以分為:(關系型在線分析處理)、(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數據和聚合數據均存放在之中;MOLAP基本數據和聚合數據均存放于中;HOLAP基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。數據倉庫系統的體系結構數據倉庫系統通常是對多個異構數據源的有效集成,集成后按照主題進行重組,包含歷史數據。存放在數據倉庫中的數據通常不再修改,用于做進一步的分析型數據處理。數據倉庫系統的建立和開發是以企事業單位的現有業務系統和大量

3、業務數據的積累為基礎的。數據倉庫不是一個靜態的概念,只有把信息適時的交給需要這些信息的使用者,供他們做出改善業務經營的決策,信息才能發揮作用,信息才有意義。因此,把信息加以整理和重組,并及時提供給相應的管理決策人員是數據倉庫的根本任務。數據倉庫的開發是全生命周期的,通常是一個循環迭代的開發過程。一個典型的數據倉庫系統通常包含數據源、數據存儲和管理、OLAPK務器以及前端工具與應用四個部分。1、數據源數據源是數據倉庫系統的基礎,即系統的數據來源,通常包含企業(或事業單位)的各種內部信息和外部信息。內部信息,例如存于操作型數據庫中的各種業務數據和辦公自動化系統中包含的各類文檔數據;外部數據,例如各

4、類法律法規、市場信息、競爭對手的信息以及各類外部統計數據及其它有關文檔等。2、數據的存儲與管理數據的存儲與管理是整個數據倉庫系統的核心。在現有各業務系統的基礎上,對數據進行抽取、清理、并有效集成,按照主題進行重新組織,最終確定數據倉庫的物理存儲結構,同時組織存儲數據倉庫的元數據(包括數據倉庫的數據字典、記錄系統定義、數據轉換規則、數據加載頻率以及業務規則等信息)。按照數據的覆蓋范圍和存儲規模,數據倉庫可以分為企業級數據倉庫和部門級數據倉庫。對數據倉庫系統的管理也就是對其相應數據庫系統的管理,通常包括數據的安全、歸檔、備份、維護和恢復等工作。3、OLAP服務器OLAM艮務器對需要分析的數據按照多

5、維數據模型進行重組,以支持用戶隨時從多角度、多層次來分析數據,發現數據規律與趨勢。如前所述,OLAP務器通常有如下3種實現方式:(1) ROLAPS本數據和聚合數據均存放在RDBM定中(2) MOLAPS本數據和聚合數據存放于多維數據集中(3) HOLAPROLAPfMOLA的綜合,基本數據存放于RDBMS中,聚合數據存放于多維數據集中。4、前端工具與應用前端工具主要包括各種數據分析工具、報表工具、查詢工具、數據挖掘工具以及各種基于數據倉庫或數據集市開發的應用。其中,數據分析工具主要針對OLAF務器;報表工具、數據挖掘工具既可以用于數據倉庫,也可針對OLAF務器。數據倉庫系統的體系結構根據應用

6、需求的不同,可以分為以下4種類型:1、兩層架構(generictwo-levelarchitecture)2、獨立型數據集市(independentdatamart)3、依賴型數據集市和操作型數據存儲(dependentdatamartandoperationaldatastore)4、邏輯型數據集市和實時數據倉庫(logicaldatamartandreal-timedatawarehouse)獨立的數據倉庫體系結構通常的數據倉庫是兩層體系結構,如圖所示,構造這種體系結構需要以下4個基本步驟:1、數據是從各種內外部的源系統文件或數據庫中抽取得到。在一個大的組織中,可能有幾十個甚至幾百個這樣的

7、文件和數據庫系統2、不同源系統中的數據在加載到數據倉庫之前需要被轉換和集成。甚至可能需要發送一些事務信息到源系統中,以糾正在數據分段傳輸中發現的錯誤。3、建立為決策支持服務的數據庫,即數據倉庫,它通常會同時包括詳細的和概括的數據4、用戶通常SQLS詢語言謹分析工具訪問數據倉庫,其結果又會反饋到數據倉庫和操作型數據庫中。數據倉庫環境最重要的三個環節包括:抽取(extract)、轉換(transform)、加載(load,把數據從源數據庫系統加載到數據倉庫),即ETL過程。抽取和加載通常是定期的,即每天、每星期或每個月。因此,數據倉庫常常沒有或者說不需要當前的數據。數據倉庫不支持操作型事務處理,雖

8、然它含有事務型數據(但更多的是事務的概括和變量狀態的快照,如帳戶余額和庫存級別)。對大多數數據倉庫應用來說,用戶尋找的不是對個別事務的反應,而是尋求包括在整個數據倉庫中的一個特定的子集上的企業(或其它組織)狀態的趨勢和模式。例如,通常會有5個季度以上的財務數據保存在數據倉庫中,以便識別趨勢和模式。太陳舊的數據,如果確定對決策分析已沒有意義,也可被消除或者存檔。基于獨立的數據集市的數據倉庫的體系結構一些企業或事業組織由于其特殊的業務需求或歷史原因,剛開始時并沒有建立數據倉庫,而是創建了許多分離的數據集市。其實,每一個數據集市都是基于數據倉庫技術的,而不是基于事務處理的數據庫技術。數據集市是范圍受

9、限的小型數據倉庫,常適用于特定終端用戶群決策應用。在這種情況下,每個獨立數據集市的內容都來自于獨立的ETL處理過程。數據集市被設計用來優化定義明確的和可預測的使用性能,通常包括單個或一組針對某特殊應用的查詢功能,如市場數據集市、財務數據集市、供應鏈數據集市等。相對于其它數據倉庫體系結構,獨立型數據集市策略的一個明顯的特征是:當需要訪問分離的數據集市的中的數據時,對終端用戶來說具有相對的復雜性。這個復雜性不僅來自于從分離的數據集市數據庫訪問數據,而且可能來自于不一致的數據系統產生的數據集市。如果有一個元數據集合跨越所有的數據集市,且數據集市上的數據通過數據分段傳輸時保存一致(即數據分段傳輸中擁有

10、“一致維”),那么,對用戶來說復雜性就減小了。另一方面是其ETL處理的復雜性,因為需要為每一個獨立的數據集市創建一個抽取、轉換、加載過程。因為一個企業或事業組織集中于一系列的短期的業務目的,獨立的數據集市經常被建立。有限的短期目標同需要相對較低成本來實現更加獨立的數據集市相兼容。然而,從數據倉庫體系結構的角度來說,圍繞一些不同的短期目標來設計整個數據倉庫環境,意味著失去了應用長期目標及業務環境變化的能力和靈活性。而這種應對能力對決策支持來說是至關重要的。采用這種體系結構的優點是其方便性,可快速啟動,這種數據倉庫架構可通過一系列的小項目來實現。在一個大的企業或事業單位中,相對于使所有的下屬組織在

11、一個中心數據倉庫中形成一致視圖來說,在組織上,政策上更容易擁有獨立的,小型數據倉庫。另外,一些數據倉庫技術在它們支持的數據倉庫大小上有一定的局限性(或稱為可擴展性),但是,如果在理解數據倉庫業務需求之前就把自己局限在特定的數據倉庫技術上,則是由技術決定的數據倉庫體系結構,而通常的情況是業務需求才是最關鍵的技術架構決定因素。獨立型數據集市架構的局限性包括如下方面:(1)為每一個數據集市開發一個獨立的ETL過程,它可能產生高代價的冗余數據和重處理工作(2)數據集市可能是不一致的,因為它們常常是用不同的技術來開發的。因此,不能提供一個清晰的企業數據視圖,而這樣的數據視圖可能涉及到重要的主題,如客戶、

12、供應商和產品等。(3)沒有能力下鉆到更小的細節或其它數據集市有關的事實或共享的數據信息庫,因此分析是有局限性的。要想獲得全面數據,則需要在不同數據集市的分離平臺上做連接,但跨數據集市的數據關聯任務要由數據集市的外部系統來執行。(4)規模擴大的成本高,因為每一個新的應用創建了一個分離的數據集市,都要重復所有的抽取和加載步驟。通常情況下,對批數據抽取來說,操作型系統有有限的時間窗口(如每天的05點)。如果想讓分離的數據集市一致,成本將會更高。基于依賴型數據集市和操作型數據存儲的數據倉庫體系結構解決獨立數據集市架構局限性的方法之是是使用基于依賴型數據集市(dependentdatamart)和操作型

13、數據存儲(operationaldatastore,ODS)的數據倉庫的的體系結構。通過企業級數據倉庫(Enterprisedatawarehouse,EWD)中加載依賴型數據集市,在整個體系架構中只使用單一的ETLM程,確保了ETL的效率和數據集市數據的一致性。企業級數據倉庫是一個集中的、集成的數據倉庫,它擁有一致的數據版本,并可以對數據作統一控制,對終端用戶的決策支持也是可用的。依賴型數據集市的主要目標就是提供一個簡單、高性能的數據環境,用戶群可以訪問數據集市、當需要訪問其它數據時,也可以訪問企業數據倉庫。另外,跨依賴型數據集市的冗余在控制之內,且冗余的數據是一致的。因為每一個數據集市都是

14、從一個共同的源數據以一種同步的方式加載而來的。基于依賴型數據集市和操作型數據存儲的數據倉庫體系架構常常被稱為“中心和輻射”架構,其中企業級數據倉庫是中心,源數據系統和數據集市在輸入和輸出的兩端。這種體系結構也被稱為合作信息工廠(corporateinformationfactory,CIF)。在支持所有用戶的數據需求中,它被認為是一個全面的企業級的數據視圖。相對于一般的兩層體系結構而言,依賴型數據集市的的優勢是它們可以處理各個用戶群的需求,甚至是探索性數據倉庫的需求。探索性數據倉庫是一種專門的數據倉庫版本,它使用先進的統計學、數學模型和可視化工具來優化,通常用于數據挖掘和商業智能等業務模型應用

15、的探索。獨立型數據集市的主要優點是可以采用分段方法業開發數據倉庫。事實上,分段方法也可以在基于依賴型數據集市和操作型數據存儲的體系結構中實現。OD勸所有的業務數據提供了一個集成的數據源,同時也解決了獨立數據集市架構不能下鉆到更小細節的問題。OD弦際上是一個集成的、面向主題的、可更新的、當前值的(但是可“揮發”的)企業級的、詳細的數據庫,也叫運營數據存儲。一個OD輿一個典型的關系數據庫,像在務系統中的數據庫一樣被規范化,但它是面向決策支持應用系統的,因此,如索引等其它關系數據庫設計理念都是面向檢索大量數據的,而不是面向事務處理或者查詢個別記錄的情況。因為ODSt易變的、當前的數據,在ODSF的相

16、同查詢在不同的時間很有可能會產生不同的結果,這也稱為ODS可“揮發性”。一個ODSJ殳不包括歷史數據,而EWD5保存了企業或事業組織狀態的歷史快照。一個ODST能來自于一個ERFS用數據庫,也可能來自其它業務數據庫,因此,ODSS常是區別于ERP&據庫的。ODSW樣作為分段傳輸區域,為將數據加載到EWD1供服務。ODST能立即接收數據或者有一定的延遲,無論哪一種情況它的決策支持需求都是可行的和可接受的。ODSS儲的邏輯結構是企事業組織范圍內所有相關業務系統的數據以全面、統一的關系型實體來體現的;ODS的數據是基于分析主題進行組織,而不是基于業務系統的功能進行組織;ODSR是存儲了當前的數據且數

17、據是揮發性的,因此其數據的刷新很快,過期的數據將要被揮發掉。因此,ODS勺存儲量取決于業務接口數據的抽取和刷新頻率,取決于企業的服務客戶的數量。從ODS勺作用和實現來說,ODS等各個孤立業務系統的運營數據集成起來,實現企業的統一數據視圖,同時也實現了ODS勺數據共享。OD明演的是用于數據稽核與交互的角色,它反映了在一個時間切片瞬間。數據倉庫系統和外圍業務系統相互交換數據的集合,可用于數據倉庫及其分析系統與外圍業務系統之間關鍵數據的一致性校驗,以及分析系統對外圍業務系統的決策支持數據的反饋(如以客戶擴展屬性為主體的詳細資料等反饋信息)。OD激據稽核功能是根據OD器與工作的實際t#況建立相應的OD

18、S并控制其權限。ODS數據稽核主要涵蓋下面的內容:界定關鍵數據稽核的項別與內容、獲取數據稽核所需數據、稽核據所需數據的完整性、數據稽核報告的存儲和稽核數據的更正等過程。OD做據交互的價值體現在數據倉庫及其分析系統的高度綜合數據向外圍業務系統的回流。如果從安全上考慮,回流數據的格式可以采用文本的方式,用戶只需要登錄到分析系統,進入OD激據交互應用,下載文本即可。OD激據交互程序會自動在指定周期,把預定義的內容上傳到指定路徑。但如果從實現的方便、快捷、可維護性考慮,可以采用數據庫方式,即外圍業務系統與分析系統之間相互約定好數據格式,由外圍系統連到分析系統OD嗷據庫,直接把ODS勺高度綜合數據導入到

19、自己的數據庫系統;也可以選擇由OD激據交互調度模塊自動在指定周期,把預定義的內容通過事先建立的數據庫連接,直接導入到外圍數據庫。基于邏輯型數據集市和實時數據倉庫的體系結構邏輯型數據集市(logicaldatamart)和實時數據倉庫體系結構實際上只用于一些特定環境的數據倉庫系統,或使用一些高性能的數據倉庫技術時,例如NCRTeradata系統。這種系統結構具有如下特征:(1)邏輯數據集市并不是物理上分離的數據庫,而是在同一個物理數據庫里的,稍微有些不規范的關系數據倉庫的不同關系視圖(2)數據被放到數據倉庫而不是分離的分段傳輸區域中,利用數據倉庫技術的高性能計算能力來執行清洗和轉換步驟(3)新的

20、數據集市可以非常快的創建,因為不需要創建或獲得獲得物理數據庫或數據庫技術,且不需要書寫加載驅動程序(4)數據集市總是最新的,因為涉及到某個視圖時,視圖中的數據將被建立,如果用戶有一系列的查詢和分析來清理數據集市中相同的實例,視圖可以被物化。實時的數據倉庫也叫動態數據倉庫(activedatawarehouse),它意味著源數據系統,決策支持服務和數據倉庫之間以一相接近實時的速度交換數據和業務規則。事實上,有許多的分析系統需要快速響應系統當前的、全面的組織狀況的描述。例如,一些分析型CRMS統(特別是呼叫中心)的回答問題和日志記錄問題,會需要客戶最近的銷售信息、欠賬和付款事務信息、維護活動和訂單的有關信息描述。一個重要事件,如輸入一個新的產品訂單,可以立即對客戶和客戶所在組織的最新狀況有一個全面了了解。一個有關客戶的實時數據倉庫分析系統可能的需求目標包括:(1)在一個業務事件(發生什么)中獲取客戶數據,減少從事件到行為的延遲(2)分析客戶行為(為什么會發生)并且預言客戶的可能行為及其反應(將發生什么)(3)制定規則來優化客戶的交互,規則包括適當的反應和達到最好的結果的途徑(4)為了使期望的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論