




免費預覽已結束,剩余19頁可下載查看
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章 數據倉庫設計 DW設計是一個操作型系統設計方法演變而來的范例。DW設計者不僅要設計一個數據庫(DW用DB實現)和一個用戶接口(數據展現部分)。而且還必須設計數據與OLTP系統的接口,數據裝載策略,數據存取工具,用戶培訓方案和不間斷的維護方案。即必須考慮許多在操作型系統設計中不必考慮的問題。本章的意圖就是幫助你完善的理解如何建立和實現DW和在一個完整的DW設計必須考慮的問題。 本章的主要內容:1 數據倉庫的生命周期2 數據倉庫的方法論3 數據倉庫的規劃4 數據倉庫的技術體系結構5 數據倉庫的數據模型設計6 數據倉庫的粒度設計7 數據倉庫的開發8 數據倉庫解決方案31數據倉庫的生命周期。按照生命周期發法可將數據倉庫開發的全部過程分成三個階段:1 數據倉庫規劃分析階段2 數據倉庫設計實施階段3 數據倉庫的應用階段這三個階段不是簡單的循環往復,而是不斷完善提高的過程。一般情況下數據倉庫系統都不可能在一個循環過程中完成,而是經過多次循環開發,每次循環都會給系統增加新的功能,這種循環的工作永遠不會終結,數據倉庫也就一直處于一個不斷完善、不斷提高的循環玩傅過程中。一 數據倉庫開發的生命周期規劃與確定需求開發概念模型數據倉庫評價數據倉庫維護數據藏庫應用數據裝載預測試開發中間件確定數據抽取源數據庫于遠數據設計設計體系結構開發邏輯模型數據倉庫開發過程 規劃分析階段 使用維護階段 設計實施階段 圖3-1 數據倉庫開發的生命周期 DW的開發與應用的階段是對DW開發應用的生命周期描述。按照生命周期法可將DW開發應用的全過程分成:DW規劃分析、DW設計實施和DW應用三個階段,完成這三個階段并不意味著DW開發的終止,而是DW開發向更高階段發展的一個轉變。一方面通過這三個階段的DW開發積累了DW開發應用經驗,可對原DW提出改進的建議,使原DW通過改進得到提高,另一方面,用戶新的需求也會豐富原DW的設計,這就是螺旋式周期性開發方法。1 DW規劃分析階段調查、分析DW環境,完成DW的開發規劃,卻定DW開發需求,建立包括實體圖、星型模型、雪花模型、元數據模型及數據源分析的主題域數據模型,并且根據主題域數據模型開發DW邏輯模型。2 DW設計實施階段根據DW的邏輯模型設計DW體系結構;設計DW域物理數據庫,用武力數據庫元數據裝載面向最終用戶的元數據庫;為DW中每個目標字段確定他在業務系統或外部數據源中的數據來源;開發或購買用于抽取、清洗、轉換和聚合數據等中間件程序;將數據從數據源加載到DW,并且進行測試。3 DW使用維護階段DW投入使用,且在使用中改進、維護DW;對DW進行評價,為下一個循環開發提供依據。二DW開發的特點DW的使用就是在DW中建立決策支持系統應用,這與業務處理系統應用環境有本質的區別,這也導致DW開發與傳統的OLTP系統開發載開發出發點、需求確定、開發過程中有相當大的不同。1 數據倉庫的開發是從數據出發的創建DW是在原有的數據庫系統中的數據基礎上進行的,即從存在于操作性環境的數據出發,進行DW的創建工作,我們稱之為“數據驅動”。數據驅動設計方法的中心是利用數據模型有效的識別原有的數據庫中的數據和DW中主題的數據“共同性”。2 DW使用的需求不能再開發初期完全明確面向應用的數據庫系統設計往往有一組教確定的應用需求,這是數據庫系統設計的出發點和基礎。而在數據倉庫環境中,并不存在操做型環境中的固定的且較確切的物流、數據流、和信息流,數據分析處理的需求更加靈活,更沒有固定的模式,甚至用戶自己也對所要進行的分析處理不能事先全部確定。因而在DW開發初期不能明確了解DW用戶的全部使用需求。3 數據倉庫的開發是一個不斷循環的過程,是啟發式的開發 DW的開發是一個動態反饋和循環的過程,一方面DW的數據內容、結構、力度、分割以及其他物理設計應該根據用戶所返回的信息不斷的調整和完善,以提高系統的效率和性能;另一方面,通過不斷理解用戶的分析需求,不斷的調整和完善,以求向用戶提供更準確、更有效的決策信息。 3.2 數據倉庫開發的方法論 建立一個DW一般需做以下五個方面的工作:1、任務和環境的評估。2、需求的收集和分析。3、構造DW。4、DW技術的培訓。5、回顧、總結和再發展。一、 任務和環境的評估 1、目標:因為數據倉庫是建立在原有的運行系統之上的,因此要結合單位的現狀來明確數據倉庫的目標任務。了解數據源所在系統和其中數據的狀況、數據類型、工作平臺、數據量、數據質量、DW的環境、網絡技術狀況。 2、目的: 看DW的任務是否可行。 所建立的DW是否是用戶所期望的。 有沒有不逾越的障礙。 確定DW系統成功與否的基本原則。 3、組織:高層負責人參加并組織項目組。 人員:項目總負責人 與DW相關的業務部門負責人 計算機軟/硬件負責人 DBA 網絡人員 4、項目組的任務:初步確定主題 主題的層次結構二、 需求的收集和分析。 1、任務: 了解決策者現在的工作目標。 現在獲得決策支持信息的方法、渠道。 和競爭對手的差距。 決策者希望DW提供什么。 制定系統的邏輯模型。 分析數據源的物理存儲狀況、運行平臺、數據質量、硬件、軟件和網絡的限制條件。 2、分析文檔。 項目概述。差距分析。系統基本架構圖示。邏輯模型。物理模型。DW的初始裝載和更新策略。 DW的運行計劃。決策信息展現的希望和需求。 DW建成的時限。三、 構造DW構造數據倉庫包括數據倉庫的管理、數據倉庫的組織和決策支持信息的展現三部分。 設計和編寫數據抽取程序/工具。 設計和編寫數據轉換程序/工具。 1、DW的管理 設計和編寫數據更新程序/工具。 設計和編寫運行的接口程序。 建立這一階段的所有管理的數據(元數據) 程序統一標準命名、建檔。 初始裝載 建立索引2、DW的組織 建立數據視圖 DW及工作平臺的安全檢查 裝入數據和應用功能建立此階段的元數據。3、決策支持信息的展現 利用多維數據展現、數據挖掘等一些工具可預先制作好許多常規的信息市場項目供支持決策使用,也可以直接操作主題數據以得出新的決策支持信息。四、 數據倉庫技術的培訓。 培訓內容:1、DW中的數據內容(包括邏輯模型、物理模型)、數據質量。 2、元數據的內容、位置,如何使用。 3、用戶界面和功能介紹。4、數據更新計劃。5、DW的安全規則。6、從OLTP到DW的數據流。7、全部的數據轉換工作。8、數據裝載和更新的策略。五、 回顧、總結和再發展。 1、哪些地方可以做得更好。2、業務部門對開發的支持是否到位。3、雙方如何合作得更好。4、什么是業務部門立竿見影的效益。5、主題選擇是否得當。6、階段成果是什么?反映如何?7、DW采用是否提高了公司的競爭力。8、投資回報率是否達到預計的水平。六、 SAS數據倉庫方法論 見圖3-2評 估 需求調查 主要數據模型和DW 主題的選擇總 結設 計 設計DW結構、數據建摸、過程建摸構 建 物理的DW 組裝、應用程序編碼,測試、驗收 部 署 、把DW展示給業務用戶,培訓 圖 3-2 SAS數據倉庫方法論總結:1、總結早期項目實施成功和失敗的經驗和公布以后努力的結果。2、應用配置是否如愿實現,如有必要須調整計劃。3、評估項目對單位的影響和得益。 3.3 數據倉庫的技術體系結構 DWS的技術體系結構如圖3-2所示數據獲取模塊數據管理員模塊 DW的數據信息目錄模塊DW的元數據數據傳遞模塊中間件模塊數據訪問模塊設計模塊 管 理 模 塊數據源外部元數據外部數據圖3-3 DataBase Association 公司定義的DW技術體系結構一、 設計模塊功能:是由DW的設計者和管理者來設計和定義的DW的。在設計DW時必須考慮到的其他因素還包括DB和瞬時數據的處理。某些DW數據庫還包括星型模型的非規范化DB設計。二、 數據獲取模塊功能:用于開發和運行數據獲取應用程序,從源系統中獲取數據并加到DW中。內容:1、數據抽取規則界定數據源。2、數據情況記錄和字段的重組,增補丟失的字段值,數據的整性和一致性檢查。3、數據增強字段值的解碼和轉換,增加時間屬性(若沒有),數據的概括或者衍生值的計算。4、數據傳輸。5、生成的定義作為元數據存入信息目錄模塊。三、 數據管理員模塊。功能:是DW用來生成、管理和訪問倉庫中數據(很可能還有元數據)的模塊。一般使用RDBMS或MDBMS(多維DBMS)。四、 管理模塊。 功能:完成維護DW環境的系統管理服務。 內容:1、管理數據獲取操作。 2、倉庫數據歸檔。 3、倉庫數據備份。 4、倉庫數據恢復。 5、訪問DW的安全及授權等。五、 信息目錄模塊功能:幫助技術用戶和業務用戶訪問DWS,通過一套維護和觀察倉庫元數據的工具實現這一功能。主要元素:1、源數據管理員:維護、輸入/出倉庫元數據。 2、技術元數據。 3、信息助理:為最終用戶提供訪問元數據的簡單方法,有些產品能幫助用戶產生、編寫、運行查詢、報表、分析并預定倉庫中找不到數據和信息。六、 數據訪問模塊功能:提供訪問工具,使用戶訪問和分析倉庫中的數據。訪問工具:1、查詢、報表自動生成和數據分析工具。 2、能訪問RDBMS的多維分析工具。 3、能訪問MDBMS的多維分析工具。 4、運行4GL或可視化程序設計語言的DSS應用程序開發工具。七、 中間件模塊功能:將DW數據與最終用戶工具連接起來,專門中間件: 智能數據倉庫中間件位用戶提供從業務角度、數據倉庫的視角;并能監視和跟蹤對DW的訪問情況。分析服務器能改善對RDBMS數據進行多維分析的效果。八、 數據傳遞模塊功能:將數據集合分布到其他DW和最終用戶產品中,如電子報表。數據的傳遞可以在一天中的某一時刻進行,也可以在一個外部事件結束時進行。 3.4數據模型設計 在創建DW時需要使用各種數據模型對DW進行描述,DW的開發人員依據這些數據模型才能開發出一個滿足用戶需求的DW。DW的各種數據模型在DW的開發中作用很大,主要體現在模型終止旱由于設計有關的屬性,排除了無關的信息,突出了與任務相關的重要信息,是開發人員能夠將注意力集中在DW開發的主要部分。因此,數據倉庫的設計和OLTP系統的設計一樣,也需要先進行模型的設計。一、 不同層次模型之間的關系.。1、 企業數據模型:特點:只包含原始數據。OLTP、DW的數據模型均源于企業模型。2、 操作型數據模型特點:基本等價于企業數據模型。在數據庫設計之前要加入性能因素。3、 DW數據模型。特點:去掉純操作性數據。給鍵碼增加時間因素合適之處增加導出數據把OLTP系統中數據關系變為人工關系。4、 不同層次模型之間的關系(1) OLTP系統的數據模型來源于企業數據模型。 (2) DW數據模型源于OLTP系統數據模型以及企業數據模型。二、 DW數據模型的設計1DW數據模型的種類:(1) 概念模型DW的概念模型是一個DW的粗略藍本,以此為工具卻人DW的設計者是否已經正確的理解了DW最終用戶的信息需求。在概念模型的設計中,必須將注意力集中在對上午的理解上,保證DW的所有業務都被歸納進概念模型。(2) 邏輯模型 DW的邏輯模型是維度模型,采用星型模型或雪花模型。在星型模型中主要設計事實表和維度表。 (3) 物理模型關系表在物力上實現的模型。通常進行索引、簇集和視圖的設計等,以及為提高性能而作的一些工作。 (4) 元數據模型 OIM 模型Ralph Kimball 提出的總線模型 總線模型的基本思想是將其他需要元數據或產生元數據的設施都連接到這一總線上,這樣就可以實現數據內部的移動。(5) 粒度模型 單粒度模型,在系統中只設計一個粒度 多粒度模型,在系統中涉及多個粒度,低粒度,中粒度,高粒度并存。 混合粒度, 在系統中,有些維度用單粒度,有些維度用多粒度。 (6)數據模型關系圖 數據模型關系圖如圖3-4所示。現實世界數據倉庫概念模型物理模型邏輯模型元數據模型數據粒度模型圖3-4 數據模型關系圖 2.概念模型設計 在設計DW的概念模型時,可以采用在業務處理系統中經常采用的實體聯系模型,即ER圖。這是一種描述組織概況的藍圖,包括整個組織系統中各個部門的業務處理業務處理數據,藍圖設計中涉及各個部門所需要的元數據,并且提供本部門所擁有系統的元數據。從概念模型中應體現出那些部門需要那些共同的數據。 設計方法 首先在建模之前定義數據模型的邊界 先建立企業內不同群體的實體-聯系模型,然后進行集成企業的總體概念模型 注意事項 在DW的數據模型中不包含操作性數據,只包含用戶感興趣的分析數據、描述數據和細節數據例:在商品銷售分析DW模型中商品的銷售數量、金額、企業利潤等是分析數據銷售的時間、地點等使用戶感興趣的描述數據銷售產品的詳細情況、購買商品的客戶詳細情況等時細節數據。 數據的歷史變遷性DW的數據模型增加時間屬性作為碼的一部分,在DW的數據模型中需要反映銷售組織的歷史變遷、業務的發展,而業務處理系統質包含當前數據 數據的概括性DW的數據模型中增加了一些衍生數據,專門用于分析的DW系統需要一些概括性的數據,這些數據在業務處理系統的數據模型重視不需要的。 示例: 業務描述 有一家大型雜貨連鎖店,其業務涵蓋分布在美國5個州范圍內的100多家雜貨店。每個商店都有完整的配套部門,包括雜貨、冷凍食品、奶制品、肉制品、農產品、面包店、花卉門市等,共有6萬多品種的產品放在貨架上。每個品種的產品被稱作村儲藏單位(SUK),這些產品來自外部廠家,并在包裝上印有條形碼,這些條形碼被叫做統一產品編碼(UPC).數據從雜貨店中收集在POS(Point Of Sale)機中。管理目標 如何時產品的訂購、儲存、與銷售運作能最大限度的實現利潤,而開展后勤工作。要實現管理目標,就要進行以下方面的工作1) 降低采購成本2) 降低額外開銷3) 盡可能多的吸引客戶4) 開展促銷活動 如:臨時降價、做廣告、廊端展銷、發行優惠卷等。概念設計 根據業務描述和管理目標,抽象出實體有:商店、采購、供應商、倉庫、銷售、客戶、促銷、財務等。 這些實體之間的關系用ER圖表詩如圖3-商店促銷客戶銷售財務倉庫供應商采購 圖3-5 零售分析ER圖3. 邏輯模型設計1) 邏輯模型表示維度建模是一種邏輯技術,這種技術試圖采用某種直觀的標準框架結構來表現數據,一般設計成星型模型結構。 例如,零售業營銷分析的星型模型如圖 3-6 所示 產品維時間鍵產品鍵商店鍵客戶鍵職員鍵銷售額成本金額產品鍵描述品牌類別包裝類型尺寸客戶鍵客戶姓名購買介紹信用概況統計類型地址日期星期幾星期數月份商店鍵商店標示號商店名稱地址地區樓層類型促銷鍵待定促銷屬性 時間維 零售營銷 商店維 客戶維 促銷維 圖36 邏輯設計示例 2邏輯模型與實體-關系建模之間的關系實體聯系圖是代表企業中每一個可能的業務過程,一個實體聯系圖可以拆分成多個有維表、事實表構成的邏輯模型。由于E-R圖在一個圖中表示多個處理,因此將E-R圖轉換成維度建模時的步驟是:(1) 將E-R圖分成獨立的業務處理,然后對每個業務處理單度建模。(2) 在E-R圖中,對包含數字型事實和可加性非碼事實的實體,選擇其中的多對多關系,并且將他們設計成各個事實表。(3) 將剩下的實體進行非規范化處理,涉及稱為表。如果一個維表連接到一個以上的事實表,這個維表一定設計成一致性維度表。大型企業數據倉庫的主維度模型大致包括10-25個星型模型,每個星型模型通常連接515個維表。在進行設計時,不同事實表之間就能共享其中的許多維表。 3基本設計技術(1) 正確區分事實、屬性和維度維度模型需要隊事實和屬性進行區分,業務層的很多事實都是數值型的,特別是該數值是浮點數時,他很可能是一個事實,而不是屬性。 例如“標準價格”,好像是產品維度的一個屬性,似乎是事先一致的常量,但每年對標準價格進行一、兩次調整,因此應該設計成事實。 屬性通常指文本字段,例如產品描述。 維度是類似于文本形式的屬性組合,固定的數值型屬性應放在維表中。 例如,零售數據倉庫中,至少應有一個產品維度,一個商店維度,一個客戶維,一個時間維,一個促銷維。 (2)事實表的設計方法事實表時數據倉庫中最大的表,在設計時,一定注意使事實表盡可能的小,因為過大的事實表在表的處理、備份和恢復、用戶查詢等方面要用較長的時間。具體方法主要有: * 減少列的數量* 降低每列的大小* 把歷史數據存檔* 對行進行分割例如 零售營銷事實表設計如下:日期關鍵字產品關鍵字商場關鍵字促銷關鍵字POS事務編號銷售量銷售額成本金額毛利潤金額 (3)維表的設計維表的屬性必須具有以下特征:# 可用文字描述# 離散值# 有規定的約束# 在分析時可提供行標題 時間維在數據倉庫中占有特定位置,建議使用時間維度。 下面介紹Ralph Kimball 在數據倉庫工具箱一書中設計的時間維、產品維、商場維。 時間維度表維度屬性維度屬性日期關鍵字日歷年月日期完全描述日歷季度星期日歷半年度紀元日編號日歷年紀元周編號財政周紀元月編號年度財政周數日歷日期編號財政月日歷周編號年度財政月數日歷月編號財政年月財政月日編號財政季度財政周編號財政季年度財政月編號財政半年度周末指示符財政年月末指示符節假日指示符日歷周結束日期星期指示符年度日歷周數銷售時令日歷月名重大事件年度日歷月數其它產品維度表維度屬性維度屬性產品關鍵字重量產品描述重量單位商標描述儲藏類型分類描述貨架期類型部門描述貨架寬度包裝類型描述貨架高度包裝尺寸貨架深度含脂量其它食物類型 商場維度表維度屬性維度屬性商場關鍵字平面布置類型商場名稱攝影加工類型商場編號財政服務類型商場所在街道地址銷售面積商場所在城市總面積商場所在縣首次開業日商場所在洲最后一次重修日期商場所在郵政編碼其它商場所在政區商場經理商場所在地區4. DW物理模型的性能問題 提高DW性能的技術合并表把需連接的幾個表的記錄合并成一個表,物理的放在一起.建立數據序列 經常按某個固定順序訪問并處理一組數據記錄,可嚴格按順序存放到一個或幾個連續的物理塊中.引入冗余進行關系規范化的逆操作,即反規范化的處理 引入冗余和合并表的區別合并表示將兩個或多個相關表的相關記錄物理上放在一起,但邏輯上不變,仍是多表,沒改變多表的關系模式,且合并表只是對表記錄的存取策略的改進,并沒有冗余的數據.引入冗余則是對表的關系模式的改變.把原來規范化的表,變成有數據冗余的規范化級別低的表。表的物理分割分割依據:存取頻率,數據的穩定性。生成導出數據事先在原始數據上進行匯總或計算,生成導出數據。優點: 減少I/O次數; 免去計算匯總步驟; 避免不同用戶重復計算可能產生的誤差建立廣義索引DW中的數據量巨大,要依靠各種各樣的索引技術來提高設計大數據量的查詢的速度。在向DW裝載數據時,就根據用戶的需求建立廣義索引概要文件,最大宗的購買,不活躍的用戶,最近的發貨等.5. 數據模型和反復開發反復開發的理由:* 業界成功的記錄強烈的建議這樣做* 最終用戶在完成第一遍之前不能明白的提出需求* 只有實際結果切實而且明確時,管理部門才能做出充分的承諾* 需要很快看到可視化結果數據模型在反復開發中的作用 數據模型在每遍開發中起著路標的作用,因為所有的開發都是數據模型驅動的,每遍后續開發都是建立在前一遍開發的基礎上,結果就是都在統一的數據模型上進行不同的開發,各遍開發的結果將產生一個內聚的高度和諧的整體. 如果沒有數據模型,重復的開發不能構成一個內聚的模式,有許多重疊和缺乏一致性.3.5 數據倉庫的粒度設計DW開發中最重要的設計問題之一是決定DW的粒度,如果粒度設計恰當,則DW其他方面的設計和實現就較容易,它是體系結構設計環境成功的關鍵.粒度級別的選擇主要是對管理多大數據量和使用數據單元詳細程度的一種處理,數據越詳細,粒度越小,級別就越低;粒度越大,數據匯總級別就高.在本節介紹利用量綱分級和反饋技術確定粒度的方法和相關原則.一、粒度確定1粗略估計要確定合適的粒度級,首先要粗略估算DW中將來的數據量和所需的直接存取設備數(DASD) 其步驟如下:第一步:對每一個已知的表計算一個記錄所占字節數的最大、最小值(按字節算)對一年內:可能的最大最小記錄數對五年內:可能的最大最小記錄數對每個表的關鍵字大小(字節數)一年總的最大空間=最大記錄所占空間*一年內最大記錄數一年總的最小空間=最小記錄所占空間*一年內最小記錄數累加索引空間第二步:對所有已知的表重復第一步粗略數據估計完后,就要計算一下索引所占的空間,對每張表確定關鍵字的長度和原始表中是否每個記錄都存在關鍵字。數據量估計的上限和下限就等于記錄的最高估計數和最小估計數分別乘以記錄的最大、最小長度再加上索引次數乘以索引的長度。2. 粒度劃分過程的輸入根據空間估算的結果,可將估計的記錄數和DASD數作為粒度劃分過程的輸入,與粒度的閾值進行比較,看是應該采用那種粒度。 表3-1 粒度閾值表一年期 10,000,000 雙重粒度級且認真設計1,000,000 雙重粒度級100,000 認真設計 10,000 實際上任何設計都行五年期20,000,000 雙重粒度級且認真設計10,000,000 雙重粒度級1,000,000 認真設計100,000實際上任何設計都行表中的數據為記錄數對于五年期,行的總數大致以數量級改變。對五年以后的推測: 在管理DW中的大量數據時,將有更多的專門技術可用。 硬件費用有所下降 可以使用更強大的軟件工具 最終用戶更加專業化在分析時只考慮到DW中的記錄數,而沒有考慮總字節數,因為不管記錄的字節長短,索引項的數量是沒有變化的,因此被索引的記錄的實際大小才影響決定DW是否采用雙粒度級策略。3確定粒度級別 完成簡單查詢分析之后,就要確定粒度級別。基本方法: 猜測一個粒度(憑直覺、經驗) 設計、載入數據到DW 讓DSS分析員看到數據如不合理重復上述步驟。最終用戶的態度:“既然我看到了我能夠做些什么,我就能告訴你什么是真正有用的。” 4反饋循環的技巧 反饋循環技巧 用很小而很快的步伐建立DW的最初幾個部分,仔細聽取用戶的意見,隨時準備調整。 使用原型法,并使用從原型中收集的觀察結果而使反饋循環起作用 學習別人確定粒度的經驗 與用戶一起進行反饋處理 看看本機構現在有了什么在運轉 進行聯合應用程序設計會議,并模擬其輸出已得到想要的反饋。 提高數據粒度的方法 當源數據置入DW時,對它進行匯總; 當源數據置入DW時,對它求平均或進行計算; 把最大/最小的設定值置入DW; 只把顯然需要的數據置入DW; 用條件邏輯選取記錄的一個子集置入DW;經驗規則:在第一次的設計周期中,如果50%的工作是正確的,則整個設計就是成功的。5粒度劃分學例 銀行環境操作型環境中約60天的業務數據由于其信息量較大,設計成雙重粒度級。在DW中: 輕度匯總存十年的每月匯總的賬戶信息 當前細節級數據存30天 在這個級別并不是把OLTP系統中所有的字段都送到DW中,只有對分析有價值的信息字段才被存儲。 30天之后,把這部分細節數據送到磁帶上,騰出的空間存放下一個30天的當前細節級數據。 制造業環境OLTP系統中存放的是訂單,由于量少,設計成單粒度,只要輕度綜合,不要當前細節級。DW中存放10年的訂單歷史。36 數據倉庫開發數據倉庫的開發是一個基于不斷循環、逐步增長的生命周期模式,是一個用戶和開發人員對其不斷了解、熟悉和完善的過程。本節提供可以用來指導開發數據倉庫技術的準則。可以把它當作一個框架,來展示不同類型DW 項目的定制方法。框架中的每一重大步驟都與實踐聯系緊密。除了提供方法之外,還指出每一步驟需要注意什么。一、 類屬方法圖3-7介紹了類屬方法。其中步驟是不斷循環的;每一步驟都提供了更多的細節,都可以循環執行,這幅圖可以作為數據倉庫開發的框架,而不是充分論述的具體方法。每個方框都代表了DW 項目中可能也應該采取的重大步驟。體系結構定義數據建模DW規劃項目開端決策者的需求源系統分析變換設計物理數據庫設計DW開發主題區分析最終用戶訪問設計最終用戶訪問開發DW 裝載和實施最終用戶訪問定義 圖37 類屬方法 1. DW 項目規劃 項目規劃是開發DW的首要任務,只有制定了正確的DW規劃,才能組織主要力量有序的實現DW開發應用。 在DW規劃中一般需要經過這樣幾步:選擇實現策略;確定DW的開發目標和實現范圍;選擇DW體系結構;建立商業和項目規劃預算。 (1)確定信息范圍和開發目標 根據用戶需求什么數據,確定需要那些數據源 初步確定主題 單主題或多主題。 確定時間范圍 技術上的考慮,是否運用新技術。 DW內容的含義及質量。 確定最先使用DW的用戶。 DW首先要滿足那些決策查詢 確定DW元數據庫的規模 確定DW內部數據的規模 (2)選擇實現策略 自頂向下,資底向上,混合法,原型法。 (3)確定項目組成員 (4)確定開發步驟以及項目管理戰略 (5)確定DW體系結構 (6)項目規劃預算2定義體系結構 作用:為DW或DSS確定技術基礎和應用程序基礎結構,是的其他的活動易于控制,保證個模塊能協調起來。3決策者的需求 (1)信息需求:原始數據元、需要計算或概括的數據元 (2)業務過程需求: Dw支持那些業務過程。 (3) 數據訪問的需求:用戶希望得到數據的過程,查詢需求,報表需求,操作需求工作流程的分析等。4. 主題域分析主題領域-圍繞一個主題的工作范圍、內容。第一個選擇的主題領域必須大到足以有意義,而又小到可以實現。如果有時某個主題領域確實大而且復雜,那么應該選擇它的子集實現。工作內容:() 給出主題域范圍() 根據所需的細節水平,初步確定粒度;() 生成初步概括表。5、源系統分析作用:確定數據從何而來,對源數據的數據完整性數據質量和業務問題做出評價。功能:從現有的系統環境中為主題標識數據,產生從操作型環境到DSS環境的映射。工作內容:() 要列出可能成為數據源的系統或文件篩選;() 確認完整性和業務問題再次篩選,可能有處理異常;() 評價候選數據的質量、準確性和時效性,每個源系統都按照風險和使用收益區分了等級。除變換外,有些數據還需要清潔,故也要估計清潔的程度。() 源系統中出現不一致屬性的處理,相應更新數據模型;() 分析源數據的使用情況;() 當源數據傳給DW時應作何種變換。() 根據分析結果,創建DW 中數據結構() 源數據中的關系在DW中如何體現。6變換設計功能:完成操作型環境和DSS環境的接口的數據變換,用于把數據從操作型引 入DW,同時保持數據的準確性和完整性。工作內容:() 數據變換規范:要確定是使用變動數據搜索法還是快照法,為建立一個完整的主題區,大多數環境必須在多個區段和文件中運行傳送程序。() 設計數據變換過程要設計出能運行多種變換模塊和變換程序的框架。輸出包括時間和持續型在內的作業流。() 控制設計和評審程序:檢驗數據的傳送是否足夠大,變換是否正確。() 確認業務度量:I確定概括類型;II確定概括位置,分為DW內部和DW外部;III確定概括復雜粒度在捕獲元數據的地方概括。() 歷史數據轉換過程;() 確定測試數據集;() DW模型的修正。 7物理數據庫設計 功能:詳細說明并建立物理數據庫 工作內容:() 建立域表;() 建立概括表() 星型連接和事實表() 建立索引() 備份和恢復8最終用戶訪問方法的設計、定義和開發9DW 開發功能:建立DW,并進行測試。工作內容:() 變換開發() 變換過程() 初步的數據加載() 控制和評審過程() 源數據的加載() 系統測試9 DW 裝載及實施功能:完成DW數據的裝載,并交付用戶使用工作:() 裝載運行() 軟件實現() 數據培訓和軟件培訓() 用戶使用,接受測試。二 DW開發流程 數據倉庫系統是一種體系結構,不是現成的產品。不同的企業會有不同的數據倉庫。企業人員往往不懂如何建立和使用DW,而DW公司人員又不懂業務,不知道建立那些決策主題,從數據源中抽取那些數據。因此需要雙方互相溝通,共同協商開發數據倉庫。1 啟動工程 建立開發數據倉庫工程的目標及制定工程計劃。2 建立技術環境 選擇實現建立開發數據倉的軟硬件資源,包括開發平臺、DBMS、開發工具、終端訪問工具等。3 確定主題 根據決策需求確定主題,選擇數據源,對建立開發數據倉的數據組織進行邏輯設計。4 設計數據倉庫中的數據庫5 數據轉換程序實現6 管理元數據7 開發用戶決策的數據分析工具。8 管理數據倉庫環境3.7 解決方案一、SAS提供的數據倉庫解決方案根據SAS白皮書編寫、 SAS公司簡介美國North Carolina州立大學在1966年開始開發SAS(Statistical Analysis System)統計軟件包。1997年成立SAS軟件研究所,開始進行SAS的維護、開發、銷售和教育工作。由于使用SAS系統成功地建立了許多卓有成效的數據倉庫。SAS公司的DW產品在1996年被美國著名的“Datamation”評為“當年度最佳產品”。在金融、電信、交通、制造、政府以及科研教育部門提供全面的軟件解決方案。在DW、HOLAP、DM、Web發布等都有產品,在商務智能、DW、DM 和DSS軟件位于全球第一。、 SAS的數據倉庫模型運行的提取數據質量數據EIS數據轉換 查詢機制Web風險性關系DBMetadata將數據裝入數據挖掘客戶DW早期數據CIS產品結構運行機制 信息數據的可視化市場數據倉庫操作SAS規劃、內容管理預測其它數據管理組織展現 圖 3-8 SAS的數據倉庫模型3SAS數據倉庫的組成() SAS系統的數據存取能力SASAccess產品可對眾多不同格式的數據進行訪問、查詢和分析,提供了目前許多流行的數據庫軟件和老的數據文件的接口,如DB2、Oracle、Sybase、CA-Ingres等等。利用SASAccess可建立對應外部異構數據的一個統一的共同數據界面,提供的接口是雙向的,既可將數據讀入SAS系統,亦可在SAS系統中更新外部數據,或將數據加載到外部數據載體中。() 數據的清理和整合在SAS的DW中有專門的機制進行引入數據的檢查、核對和將不同來源數據進行整合的技術環節。() 數據倉庫的加載和更新從數據源到數據倉庫一氣呵成的集成式操作的能力是SAS DW技術的重要特點。() 按決策需要重組數據和信息() 豐富的決策數據處理能力SAS/MDDB構造最適宜OLAP操作的多維數據結構;SAS/STAT覆蓋了所有的數理統計分析方法,是國際上統計分析領域的標準軟件;SAS/ETS提供豐富的計量經濟學和時間序列分析方法,是研究復雜系統和進行預測的有力工具;SAS/OR提供了全面的運籌學方法;SAS/IML提供了面向矩陣運算的編程語言;SAS/Insight可視化的數據探索工具,將統計方法和交互式圖形統合在一起。() 靈活多樣的結果展示方式SASGRAPH圖形軟件包。三、SAS數據倉庫的體系結構 SASDW的體系結構見圖3-8、 環境(Enviroment)環境是SAS DW體系結構的總根,由兩部分組成:() 數據倉庫;()對數據源的定義。構成了從數據采集到直接應用的完整的支持體系。、 DW可使用多個DW一個DW中有多個數據集市。、 主題(Subject)在每個主題中有一個主題表系統,其中放置與此主題相關的各種數據環境數據倉庫主題主題表系統(存放經過清洗、整合的數據,可以是表或視圖,結構重組)主題表主題表 匯總表組(定義數據匯總處理的層次維數和所分析的變量)SAS或DBMS匯總層次SAS或DBMS匯總層次(表示所選擇匯總處理的時間維)MDDB1MDDB匯總表組信息市場(決策支持信息)信息市場項目具體決策信息信息市場項目信息市場主題數據集市組數據集市數據集市信息市場信息市場數據集市組 數據倉庫 運行數據定義組(對要從數據源取出的數據進行定義的分組)運行數據定義(定義要取得數據)數據文件數據文件外部文件外部文件運行數據定義 運行數據定義組圖 3-9 SASDW的體系結構四、SAS的數據倉庫產品SASWA (SAS/Warehouse Administrator) 功能:、 定義DW和主題:所定義的DW,可以建立在SAS數據庫中,可建立在一般的DBMS中,還可以建立在SAS的多維數據庫產品SASMDDB(MultiDemention Data Base)中。、傳送和匯總整理數據通SASWA的Process的Editor進行。 運行數據的映射(Mapping)在此定義從輸入數據源中取出哪些數據,這些數據如何轉換,然后將他們裝載到哪個主題數據表中去。 數據傳送將數據從其所在的計算機系統中選出,SASWA對它進行相應處理,然后用Proc UpLoad或Proc DownLoad在把它送到數據倉庫所在的計算機系統中。如圖3-9所示: 記錄選取器按照某些選取規則選出數據子集,形成DW的其他元素,如相應的表、數據集市或視圖。 用戶出口除SASWA規定的DW操作外,用戶可在多個環節上插入認為需要的數據操作。DW主題表開發者自編程序數據映射數據傳輸運行數據定義運行數據定義運行數據定義數據文件數據文件外部文件圖 3-10 數據傳送、更新匯總數據更新()原有表中進行更新;()產生一個新的時間區間的數據新版本。SASWA會按預先規定的規則產生一個新的匯總數據。、 建立、管理和取用查看Metadata
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 國開學習網《助理信用管理師實務》形考任務1-4答案
- 工業廢棄物處理與節能減排
- 工業排放標準及監管政策分析
- 工業安全技術的創新與升級
- 工業污染與血液病的關聯性研究
- 工業機器人技術的新發展
- 工業自動化中的信息安全技術
- 工業級智能硬件的穩定性設計
- 工業節能減排與環境監測結合實踐
- 工業設計中的創新材料與技術探討
- MOOC 園林植物遺傳育種學-北京林業大學 中國大學慕課答案
- 抖音種草方案
- 術后鎮痛慢性疼痛癌性疼痛診療標準規范及作業流程
- 2022AHA-ACC-HFSA心衰管理指南解讀
- 《小石潭記》教學實錄及反思特級教師-王君
- 水泥混凝土道路耐久性提升技術
- 公交駕駛員培訓課件
- 兒童意外傷害與預防
- 烏茲別克文學史
- 幼兒園區角觀察記錄表大班建構區
- 高危孕產婦管理課件培訓
評論
0/150
提交評論