數據倉庫開發應用過程_第1頁
數據倉庫開發應用過程_第2頁
數據倉庫開發應用過程_第3頁
數據倉庫開發應用過程_第4頁
數據倉庫開發應用過程_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫開發應用過程

數據倉庫開發應用過程

3.1數據倉庫開發應用過程3.2數據倉庫的規劃3.3數據倉庫的概念模型設計3.4數據倉庫的邏輯模型設計3.5數據倉庫的物理模型設計3.6數據倉庫的實施3.7數據倉庫的應用、支持和增強練習3.1數據倉庫開發應用的特點

3.1.1數據倉庫開發應用的階段性數據倉庫的開發應用過程劃分為:創始階段成長階段控制階段成熟階段

3.1.2數據倉庫的螺旋式開發方法

規劃分析階段

數據倉庫開發過程設計實施使用維護階段階段

3.2數據倉庫的規劃3.2.1選擇數據倉庫實現策略開發策略主要有:自頂向下:實際應用比較困難。自底向上:用于一個數據集市或一個部門的數據倉庫開發,容易獲得成功。兩種策略的聯合使用:能夠快速地完成數據倉庫的開發與應用,而且還可以建立具有長遠價值的數據倉庫方案。在實際使用中難以操作。3.2.2確定數據倉庫的開發目標和實現范圍首要目標是確定所需要信息的范圍,確定數據倉庫在為用戶提供決策幫助時,在主題和指標領域需要哪些數據源。

另一個重要目標是確定利用哪些方法和工具訪問和導航數據?其它目標是確定數據倉庫內部數據的規模從用戶的角度分析從技術的角度分析3.2.3數據倉庫的結構1.數據倉庫的應用結構基于業務處理系統的數據倉庫

單純數據倉庫

單純數據集市

數據倉庫和數據集市

2.數據倉庫的技術平臺結構單層結構

客戶/服務器兩層結構

三層客戶/服務器

多層式結構

3.2.4數據倉庫使用方案和項目規劃預算實際使用方案還可以將最終用戶的決策支持要求與數據倉庫的技術要求聯系起來開發方案的預算進行估計編制數據倉庫開發說明書:說明系統與企業戰略目標的關系,系統與企業急需處理的、范圍相對有限的開發機會。業務機會的說明以及任務概況說明、重點支持的職能部門和今后工作的建議。計劃中需要闡明期望取得的有形和無形利益業務價值計劃最好由目標業務主管來完成規劃書中要確定數據倉庫的開發目標實現范圍、體系結構和使用方案及開發預算。3.3數據倉庫的概念模型設計概念模型的設計可以分為以下幾個階段:用戶需求調查、模型定義、模型分析和模型設計。3.3.1概念模型的需求調查數據倉庫開發的任務書首先要明確用戶的信息需求了解管理人員在信息需求方面的內容了解關于信息的來源組織所使用的系統環境3.3.2概念模型的定義1.數據倉庫用戶的決策分析2.支持決策的數據需求分析3.數據需求分析工具決策分析問題客戶購買商品趨勢分析需求信息類日期地點商品客戶年齡組客戶經濟狀況客戶信用需求信息1層需求信息2層需求信息3層需求信息4層需求信息5層……年(4)季(16)月(48)……國家(15)省(60)市(200)街道(2100)商店(20000)……商品種類(7)商品小類(40)商品(220)……年齡組(8)……經濟類(10)……信用(10)……3.3.2概念模型的定義4.CRUD矩陣

實體功能客戶銷售單商品銷售代表供貨商銷售單輸入CRUDCRUDRRURU銷售單處理CRUDCRUD商品管理RRRUR預算系統RRRRUR財務計算RURRURR庫存控制RRUCRUDR后勤RRURRUC:Create產生、R:Read引用、U:Update更新D:Delete刪除。3.3.2概念模型的定義5.企業業務處理系統數據存儲表OracleSysbaseSQLServerVFP其它模式銷售單輸入√√銷售單處理√√商品管理√預算系統√(Excel)財務計算√庫存控制√后勤√外部數據源商品供應商√市場調查公司√3.3.3概念模型的分析

客戶變動信息商品變動信息客戶號商品固有信息

客戶固有信息

客戶號供應商號開戶日期

日期銷售數量

日期

商品號

商品

客戶

銷售3.3.4概念模型的設計經濟(年收入)100萬以上10萬以上1萬以上1萬以下地點國家省市銷售銷售數量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品種類ID小類ID商品ID信用10萬元以上1萬元以上1千元以上1千元以下

0元經濟(年收入)100萬以上10萬以上1萬以上地點國家省市銷售銷售ID銷售數量銷售價格銷售金額時間ID地點ID商品ID年齡60歲以上40歲以上30歲以上20歲以上20歲以下日期年月日商品ID種類小類商品信用10萬元以上1萬元以上1千元以上1千元以下

0元商品ID生產廠家進貨價格進貨日期客戶客戶ID姓名地址電話郵政編碼3.3.5概念模型文檔與評審1.概念模型設計文檔數據倉庫開發需求分析報告概念模型分析報告概念模型概念模型的評審報告。

2.概念模型的評審3.概念模型的評審人員4.概念模型的評審內容數據倉庫開發任務書;用戶決策分析信息需求調查表;數據倉庫主題;E-R圖、星型模型和雪花模型。

3.4數據倉庫的邏輯模型設計數據倉庫的邏輯模型設計任務:分析主題域,確定要裝載到數據倉庫的主題;確定粒度層次劃分;確定數據分割策略;關系模式的定義和記錄系統定義、確定數據抽取模型等。邏輯模型最終設計成果:每個主題的邏輯定義,并將相關內容記錄在數據倉庫的元數據中粒度劃分數據分割策略表劃分和數據來源等。

3.4.1分析主題域主題名公共碼鍵屬性組商品商品號商品固有信息:商品號,商品名,類型,顏色等商品采購信息:商品號,供應商號,供應價,供應日期,供應量等商品庫存信息:商品號,庫房號,庫存量,日期等銷售銷售單號銷售單固有信息:銷售單號,銷售地址等銷售信息:客戶號,商品號,銷售價,銷售量、銷售時間等客戶客戶號客戶固有信息:客戶號,客戶名,性別,年齡,文化程度,住址,電話等客戶經濟息:客戶號,年收入,家庭總收入等3.4.2粒度層次和聚集的確定3.4.3確定數據分割策略數據分割標準1.數據量2.數據分析處理的對象3.粒度分割的策略

3.4.4關系模型定義3.4.5數據倉庫的實體定義實體的邏輯分析實體所有列的具體特征

列名列的鍵屬性值來源/值域完整性約束類型與大小Customer_Number主鍵列、外部鍵列來自客戶實體的合法客戶鍵列沒有客戶鍵列,數據就不存在Char(10)Order_Number主鍵列、外部鍵列來自銷售單實體的合法鍵列沒有銷售單鍵列,數據就不存在Char(10)Product_Number主鍵列、外部鍵列來自商品實體的合法鍵列沒有商品鍵列,數據就不存在Char(10)Product_Price正的金額數Money(float)…………………………3.4.5數據倉庫的實體定義實體容量更新頻率Customer中等容量,有100個重點客戶,2000個跟蹤客戶每月對客戶情況進行一次分析,更新頻率也為每月一次Product小容量,500種商品大約有500種商品,商品的更新是每月一次,數據更新也照此。Order_Detail大容量,其上限是354,000,000,000,考慮到各種客戶類型與各種商品的組合情況,一般很少達到。數據每月匯總一次,但是業務處理系統的數據每日需要更新一次,因此更新頻率為每日一次。………………3.4.6數據倉庫的數據抽取模型F1數據抽取規則 P2 清理數據記錄 F8數據清理規則 F2 KHCG F5CQLS_KHCGF6CQLS_KHCG F7SJCK_KHCG P4 加載到數據倉庫 F3 SPQK F4 ZGYJ P3 數據排序聚集 P1 抽取數據源記錄 3.4.6數據倉庫的數據抽取模型2.數據倉庫的數據抽取、轉換與加載計劃(1)影響數據抽取、轉換與加載的因素數據格式壞數據系統的兼容性數據源的變化數據抽取的時間

(2)數據抽取、轉換與加載對策

全庫比較利用程序日志利用數據庫日志利用時間戳或利用位圖索引3.4.6數據倉庫的數據抽取模型3.數據倉庫的數據清理轉換方法(1)類型轉換(2)串操作(3)數學函數(4)參照完整性(5)關鍵字翻譯(6)聚集運算4.數據倉庫的數據抽取、清理與轉換模型3.4.6數據倉庫的數據抽取模型數據平臺數據庫表名備注Windows/SQLServerXSSJKHCG客戶采購商品表Windows/SQLServerXSSJSPQK商品情況表Windows/AccessRSGLZGYJ職工業績表……………………數據源抽取對象表

3.4.6數據倉庫的數據抽取模型數據源抽取規則表表.列名過濾與連接條件比較值復合條件備注KHCG.CGSL<50000AND采購商品數量小于50000KHCG.CGSL>500AND采購商品數量大于500SPQK.SPID≠‘AB’OR商品前兩位非’AB’…………………………3.4.6數據倉庫的數據抽取模型數據抽取的目標列與源列對應關系表目標表.列源表.列轉換公式備注SJCK_KHCG.KHZYKHCG.KHZY直接轉換客戶職業SJCK_KHCG.CGRQKHCG.CGRQ將月/年/日的日期格式轉換成年/月/日格式客戶采購日期……………………3.4.6數據倉庫的數據抽取模型數據抽取過程的排序、概括和導出情況表表.列名排序概括/導出備注CQLS_KHCG.CGSL降序分組按照采購數量從大到小排序、按照日期進行分組SJCK_KHCG.CGHZ概括對每一客戶采購量按照星期分別進行概括處理,計算客戶的采購總量SJCK_KHCG.PJL導出對每一客戶采購情況按照星期分別進行平均采購量計算……………………3.4.6數據倉庫的數據抽取模型數據概括表與事實表對應關系概括表表.列名是否導出事實表.列名備注SPGKB.SP_ID否SPGYB.SP_ID商品編號SPGKB.GYS_ID否SPGYB.GYS_ID供應商編號SPGKB.SPGYZSL是SPGYB.SPGYL商品供應總量,按照供應商編號對供應數量求和SPGKB.SPGYZJE是SPGYB.SPGYJE商品供應總金額,按照供應商編號對供應商品的金額進行匯總……………………3.4.7數據倉庫的元數據模型建立與應用數據源⑼⑶物理模型查詢統計邏輯模型業務分組來源定義加載統計來源-目標映射元數據目錄數據倉庫前端展示工具⑴⑵⑷⑸a⑹⑺⑻⑽⑿⑸b3.4.8邏輯模型的評審邏輯模型的文檔內容:主題域分析報告,數據粒度劃分模型,數據分割策略,指標實體、維實體與詳細類別實體的關系模式和數據抽取模型。對邏輯模型的評審主要集中在主題域是否可以正確地反映用戶的決策分析需求。從用戶對概括數據使用的要求,評審數據粒度的劃分和數據分割策略是否可以滿足用戶決策分析的需要。為提高數據倉庫的運行效率是否需要對關系模式進行反規范化處理。數據的抽取模型是否正確地建立了數據源與數據倉庫的對應關系。數據的約束條件和業務規則是否在這些模型中得到了正確的反映。3.5數據倉庫的物理模型設計表的數據結構類型、索引策略、數據存放位置以及數據存儲分配等等。物理模型設計因素:I/O存取時間、空間利用率和維護的代價。工作:全面了解所選用的數據庫管理系統,特別是存儲結構和存取方法。了解數據環境、數據的使用頻率、使用方式、數據規模以及響應時間要求等。了解外部存儲設備的特征。3.5.1數據倉庫設計的規范保證數據倉庫的設計、實施和管理保持穩定,不產生混亂,需要對物理數據模型中的實體、表、列等進行規范化處理。使整個數據倉庫的物理數據模型能夠保持一致。規范化內容主要有:完整清晰的數據定義、合適的數據格式等。數據倉庫中的每個組件或部件都確定相應的設計標準。3.5.2確定數據結構的類型數據非規范化處理的優點有:·能減少對表聯結的需求,提高數據倉庫運行性能。·能減少編寫專門決策支持應用程序的工作量,因為運用一些專門的查詢工具,可以更容易訪問數據。·可以讓用戶以直觀的易于理解的工具來操作數據,例如,可以利用電子報表來查看數據。3.5.3數據倉庫索引的創建1.索引創建策略建立索引時,按照索引使用的頻率,由高到低逐步添加。按主關鍵字和大多數外部關鍵字建立索引

2.事實表索引的創建事實表中一定要設置主鍵

3.維表索引的創建4.數據加載索引的創建3.5.4確定數據存放位置數據的布局原則:·不要把經常需要連接的幾張表放在同一存儲設備上。·如果幾臺服務器之間的連接會造成嚴重的網絡業務量的問題,則要考慮服務器復制表格。·考慮把整個企業共享的細節數據放在主機或其他集中式服務器上。·別把表格和它們的索引放在同一設備上。一般可以將索引存放在高速存儲設備上,而表格則存放在一般存儲設備上,以加快數據的查詢速度。3.5.5確定存儲分配3.5.6數據倉庫物理模型的評審理設計評審的目標要確定:物理模型在滿足數據倉庫使用的靈活性、性能、數據完整性、系統可用性、數據的當前性和用戶的滿意度等

具體的評審項目有:表空間、分區、表格、數據壓縮、控制表和引用表、索引、數據量、數據分布、線路通信量、數據倉庫的更新、概況數據、預期變動和數據的文檔化。3.6數據倉庫的實施

實施過程中需要完成的工作:建立數據倉庫與業務處理系統的接口數據倉庫的體系結構建立實現數據倉庫物理倉庫與元數據庫進行數據倉庫的數據初次加載完成數據倉庫的中間件設計進行數據倉庫的測試。

3.6.1數據倉庫與業務處理系統接口的設計

接口應該具有這樣一些功能:從面向應用和操作環境生成完整的數據;數據基于時間的轉換;數據的聚集;對現有數據系統的有效掃描,以便今后數據倉庫的數據追加。3.6.2數據倉庫的創建關系型數據庫、多維數據庫和對象數據庫

創建數據倉庫的工具:MSSQLServer2000Oracle9iSybaseInformixRedBrickDecisionServer3.6.3數據倉庫的數據加載、復制與發行數據加載之前,首先需要對準備加載的數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論