數據倉庫的數據存儲和實現_第1頁
數據倉庫的數據存儲和實現_第2頁
數據倉庫的數據存儲和實現_第3頁
數據倉庫的數據存儲和實現_第4頁
數據倉庫的數據存儲和實現_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫的數據存儲和實現當面對大量的數據,而且是各種各樣類型的數據,還可能有的數據單元(粒度)很大,單純靠數據庫是不易解決,為了解決這些問題,提高系統后臺的效率,就需要引進數據倉庫。有關數據倉庫的數據存儲的幾個基本問題:1.數據存儲的方式?數據倉庫的數據由兩種存儲方式:一種是存儲在關系數據庫中,另一種是按多維的方式存儲,也就是多維數組。2.存儲何種數據?數據倉庫中存在不同的綜合級別的數據。一般把數據分成四個級別,早期細節級數據,當前細節級數據,輕度綜合級,高度綜合級。不同的綜合級別一般稱為粒度。粒度越大,表示細節程度越低,綜合程度越高。級別的劃分是根據粒度進行的。數據倉庫中還有一種是元數據,也就是關于數據的數據。傳統數據庫中的數據字典或者系統目錄都是元數據,在數據倉庫中元數據表現為兩種形式:一種是為了從操作型環境向數據倉庫環境轉換而建立的元數據,它包含了數據源的各種屬性以及轉換時的各種屬性;另一種元數據是用來與多維模型和前端工具建立映射用的。3.粒度與分割粒度是對數據倉庫中的數據的綜合程度高低的一個衡量。粒度越小,細節程度越高,綜合程度越低,回答查詢的種類越多;反之粒度越大,細節程度越低,綜合程度越高,回答查詢的種類越少。分割是將數據分散到各自的物理單元中去以便能分別獨立處理,以提高數據處理的效率。數據分割后的數據單元成為分片。數據分割的標準可以根據實際情況來確定,通??蛇x擇按日期、地域或者業務領域等進行分割,也可以按照多個標準組合分割。4.追加時數據的組織方式這里說一種比較簡單的情況,輪轉綜合文件。比如:數據存儲單位被分為日、周、季度、年等幾個級別。每天將數據記錄在日記錄集中;然后七天的數據被綜合存放在周記錄集中,每隔一季度周記錄集中的數據被存放到季度記錄集中,依此類推……這種方法把越早期的記錄存放的綜合程度越高,也就是粒度越大。數據倉庫的實現步驟:一般地,設計和創建數據倉庫的步驟是:1.確定用戶需求確定終端用戶的需要,為數據倉庫中存儲的數據建立模型。通過數據模型,可以得到企業完整而清晰的描述信息。數據模型是面向主題建立的,同時又為多個面向應用的數據源的集成提供了統一的標準。數據倉庫的數據模型一般包括:企業的各個主題域、主題域之間的聯系、描述主題的碼和屬性組。深入地分析企業的數據源,記錄數據源系統的功能與處理過程。一般地,設計數據倉庫最重要的一步便是要理解商業動作的規律,只有了解數據是如何被處理的,才能分解商業處理過程,從中獲取數據元素。利用現有系統的信息,確定從源數據到數據倉庫的數據模型所必須的轉化/綜合邏輯。這涉及到應該合并轉化多少數據;是綜合所有的數據文件還是綜合發生變化的操作系統文件;轉化/綜合過程應該多長時間執行一次等問題。決定數據轉化與更新頻率是重要的商業事件。無論數據倉庫的更新是采用事件驅動還是時間驅動,都必須讓數據倉庫知道當某種事件發生時就需要更新數據。在數據倉庫建立之前,應該寫一個詳細的方案和實現規劃。這種方案和實現規劃包括:建立商業案例、收集用戶需求、確定技術需求。建立商業案例包括由該方案解決的商業需求、方案的成本和投資的收益。收集用戶需求主要是調查用戶建立數據倉庫的意圖。用戶需求可以確定這些內容:數據需求(粒度級)、企業經營系統包含的數據、這些數據遵循的商業規則、需要提供給用戶的查詢、用戶需要的標準報告、將要使用的客戶應用程序工具。確定技術要求包括下列內容:硬件體系結構和框架(例如,鏈接到數據市場所在的地理位置)、備份和恢復機制、安全性限制、從經營系統到數據倉庫加載數據和轉換數據的方法。2.設計和建立數據庫設計和建立數據庫是成功地創建數據倉庫的一個關鍵步驟。這一步通常由有經驗的數據庫設計人員使用,因為這一步涉及的數據來自多種數據源并且要把它們合并成一個單獨的邏輯模型。不像OLTP系統那樣以高度的正規化形式存儲數據,數據倉庫中存儲的數據以一種非常非正規化的形式存儲數據以便提高查詢的性能。數據倉庫常常使用星型模式和雪花型模式來存儲數據,作為OLAP工具管理的合計基礎,以便盡可能快地響應復雜查詢。b.遷移數據從經營系統中遷移數據一般是在數據拷貝到數據倉庫之前,把數據拷貝到一個中間數據庫中。如果數據需要凈化,那么把數據拷貝到中間數據庫中是必要的。應該在OLTP系統中活動比較低的時候拷貝數據,否則會降低系統的性能。另外,如果該數據倉庫是由來自多個相關經營系統中的數據構成,應該確保數據遷移發生在系統同步的時候。如果經營系統不同步,那么數據倉庫中的數據可能會產生預想不到的錯誤。在MicrosoftSQLServer7中,MicrosoftSQLServerDataTransformationServicesImportandExportwizards可以用來創建一系列任務,可以把數據從異構經營系統中拷貝到一個運行SQLServer的中間數據庫中。c.數據凈化數據凈化就是使數據達到一致性。在多個經營系統中,可能有相同的數據。例如,一個名稱為ABCCooperation的公司可能被寫成ABCCo、ABC、ABCCooperation等。如果這些名稱不一致,那么在查詢的時候就會將這個公司作為兩個不同的公司處理。如果在數據倉庫中的數據生成一致的信息,那么該公司的名稱必須完全一致。數據凈化可以通過下面幾種方法得到:在從OLTP系統拷貝到中間數據庫或者數據倉庫時,使用SQLServer的數據轉換服務的數據引入引出向導修改數據寫一個連接數據源的MicrosoftActiveX腳本或者VisualC++程序,由DTSAPI程序執行,來凈化數據例如,在定單系統中,這些數據需要凈化:State(必須總是兩個字符的值)以及ProductName(必須是產品的完整名稱,不能使用縮寫)。那么,在拷貝數據的進程中,可以使用數據轉換服務的引入引出向導檢查State的值,使其為兩個字符的值,通過寫VisualC++程序可以保證產品的名稱為完整的名稱。一旦數據凈化之后,就可以把數據移動到數據倉庫中。d.轉換數據在數據的遷移進程中,一般地,經常需要把經營數據轉換成一種單獨的格式,以便適應數據倉庫的設計。例如,轉換數據可以包括下列內容:把所有的字母字符轉變成大寫字母;重新計算匯總數據;把單個數據分解成多個數據,例如把格式為nnnn-description的產品代碼分解成單獨的代碼和描述值;把多個數據合并

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論