




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據倉庫與數據集市差別01什么是數據集市?數據集市與數據倉庫的區別?數據倉庫(DataWarehouse)
是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(TimeVariant)的數據集合用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解。首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。(注:該定義來自于著名的數據倉庫專家W.H.Inmon的著作《BuildingtheDataWarehouse》一書)【如有需要數據倉庫書籍,可以后臺回復獲取】。
數據集市:是一個小型的部門或工作組級別的數據倉庫。有兩種類型的數據集市——獨立型和從屬型。獨立型數據集市直接從操作型環境獲取數據。從屬型數據集市從企業級數據倉庫獲取數據。從長遠的角度看,從屬型數據集市在體系結構上比獨立型數據集市更穩定。獨立型數據集市的存在會給人造成一種錯覺,似乎可以先獨立地構建數據集市,當數據集市達到一定的規模可以直接轉換為數據倉庫,然而這是不正確的,多個獨立的數據集市的累積并不能形成一個企業級的數據倉庫,這是由數據倉庫和數據集市本身的特點決定的。如果脫離集中式的數據倉庫,獨立的建立多個數據集市,企業只會又增加了一些信息孤島,仍然不能以整個企業的視圖分析數據,數據集市為各個部門或工作組所用,各個集市之間又會存在不一致性。當然,獨立型數據集市是一種既成事實,為滿足特定用戶的需求而建立的一種分析型環境,但是,從長遠的觀點看,是一種權宜之計,必然會被企業級的數據倉庫所取代。數據集市是企業級數據倉庫的一個子集,他主要面向部門級業務,并且只面向某個特定的主題。為了解決靈活性和性能之間的矛盾,數據集市就是數據倉庫體系結構中增加的一種小型的部門或工作組級別的數據倉庫。數據集市存儲為特定用戶預先計算好的數據,從而滿足用戶對性能的需求。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。
數據集市的特征主要有:規模小;面向部門有特定的應用由業務部門定義、設計和開發業務部門管理和維護能快速實現購買比較便宜投資快速回收工具集的緊密集成提供更詳細的、預先存在的、數據倉庫的摘要子集可升級到完整的數據倉庫。數據集市和數據倉庫的區別數據集市和數據倉庫的主要區別:數據倉庫是企業級的,能為整個企業各個部門的運行提供決策支持手段;而數據集市則是一種微型的數據倉庫,它通常有更少的數據,更少的主題區域,以及更少的歷史數據,因此是部門級的,一般只能為某個局部范圍內的管理人員服務,因此也稱之為部門級數據倉庫。數據集市可以分為兩種類型——獨立型數據集市和從屬型數據集市。獨立型數據集市直接從操作型環境獲取數據,從屬型數據集市從企業級數據倉庫獲取數據,帶有從屬型數據集市的體系結構如圖所示。數據倉庫規模大、周期長,一些規模比較小的企業用戶難以承擔。因此,作為快速解決企業當前存在的實際問題的一種有效方法,獨立型數據集市成為一種既成事實。獨立型數據集市是為滿足特定用戶(一般是部門級別的)的需求而建立的一種分析型環境,它能夠快速地解決某些具體的問題,而且投資規模也比數據倉庫小很多。獨立型數據集市的存在會給人造成一種錯覺,似乎可以先獨立地構建數據集市,當數據集市達到一定的規模再直接轉換為數據倉庫。有些銷售人員會推銷這種觀點,其實質卻常常是因為建立企業級數據倉庫的銷售周期太長以至于不好操作。多個獨立的數據集市的累積,是不能形成一個企業級的數據倉庫的,這是由數據倉庫和數據集市本身的特點決定的——數據集市為各個部門或工作組所用,各個集市之間存在不一致性是難免的。因為脫離數據倉庫的緣故,當多個獨立型數據集市增長到一定規模之后,由于沒有統一的數據倉庫協調,企業只會又增加一些信息孤島,仍然不能以整個企業的視圖分析數據。借用Inmon的比喻:我們不可能將大海里的小魚堆在一起就構成一頭大鯨魚,這也說明了數據倉庫和數據集市有本質的不同。如果企業最終想建設一個全企業統一的數據倉庫,想要以整個企業的視圖分析數據,獨立型數據集市恐怕不是合適的選擇;也就是說“先獨立地構建數據集市,當數據集市達到一定的規模再直接轉換為數據倉庫”是不合適的。從長遠的角度看,從屬型數據集市在體系結構上比獨立型數據集市更穩定,可以說是數據集市未來建設的主要方向。02為什么要有數據集市?良好的數據集市有什么特點?雖然OLTP和遺留系統擁有寶貴的信息,但是可能難以從這些系統中提取有意義的信息并且速度也較慢。而且這些系統雖然一般可支持預先定義操作的報表,但卻經常無法支持一個組織對于歷史的、聯合的、智能的或易于訪問的信息的需求。因為數據分布在許多跨系統和平臺的表中,而且通常是“臟的”,包含了不一致的和無效的值,使得難于分析。數據集市將合并不同系統的數據源來滿足業務信息需求。若能有效地得以實現,數據集市將可以快速且方便地訪問簡單信息以及系統的和歷史的視圖。一個設計良好的數據集市有如下特點(有些特點數據倉庫也具有,有些特點是相對于數據倉庫來講的):(1)特定用戶群體所需的信息,通常是一個部門或者一個特定組織的用戶,且無需受制于源系統的大量需求和操作性危機(相對于數據倉庫)。(2)支持訪問非易變(nonvolatile)的業務信息。(非易變的信息是以預定的時間間隔進行更新的,并且不受OLTP系統進行中的更新的影響。)(3)調和來自于組織里多個運行系統的信息,比如賬目、銷售、庫存和客戶管理以及組織外部的行業數據。(4)通過默認有效值、使各系統的值保持一致以及添加描述以使隱含代碼有意義,從而提供凈化的(cleansed)數據。(5)為即席分析和預定義報表提供合理的查詢響應時間(由于數據集市是部門級的,相對于龐大的數據倉庫來講,其查詢和分析的響應時間會大大縮短)。03數據集市的數據結構數據集市中數據的結構通常被描述為星型結構或雪花結構。一個星型結構包含兩個基本部分——一個事實表和各種支持維表。(1)事實表事實表描述數據集市中最密集的數據。在電話公司中,用于呼叫的數據是典型的最密集數據;在銀行中,與賬目核對和自動柜員機有關的數據是典型的最密集數據。對于零售業而言,銷售和庫存數據是最密集的數據等等。事實表是預先被連接到一起的多種類型數據的組合體,它包括:一個反映事實表建立目的的實體的主鍵,如一張訂單、一次銷售、一個電話等等,主鍵信息,連接事實表與維表的外鍵,外鍵攜帶的非鍵值外部數據。如果這種非鍵外部數據經常用于事實表中的數據分析,它就會被包括在事實表的范圍內。事實表是高度索引化的。事實表中出現30到40條索引非常常見。有時實事表的每列都建了索引,這樣作的結果是使事實表中的數據非常容易讀取。但是,導入索引所需的資源數量必須為等式提供因數。通常,事實表的數據不能更改,但可以輸入數據,一旦正確輸入一個記錄,就不能更改此記錄的任何內容了。(2)維表維表是圍繞事實表建立的。維表包含非密集型數據,它通過外鍵與事實表相連。典型的維表建立在數據集市的基礎上,包括產品目錄、客戶名單、廠商列表等等。數據集市中的數據來源于企業數據倉庫。所有數據,除了一個例外,在導入到數據集市之前都應該經過企業數據倉庫。這個例外就是用于數據集市的特定數據,它不能用于數據倉庫的其他地方。外部數據通常屬于這類范疇。如果情況不是這樣,數據就會用于決策支持系統的其他地方,那么這些數據就必須經過企業數據倉庫。數據集市包含兩種類型的數據,通常是詳細數據和匯總數據。(3)詳細數據數據集市中的詳細數據包含在星型結構中。當數據通過企業數據倉庫時,星型結構就會很好的匯總。在這種情況下,企業數據倉庫包含必需的基本數據,而數據集市則包含更高間隔尺寸的數據。但是,在數據集市使用者的心目中,星型結構的數據和數據獲取時一樣詳細。(4)匯總數據數據集市包含的第二種類型數據是匯總數據。分析人員通常從星型結構中的數據創建各種匯總數據。典型的匯總可能是銷售區域的月銷售總額。因為匯總的基礎不斷發展變化,所以歷史數據就在數據集市中。但是這些歷史數據優勢在于它存儲的概括水平。星型結構中保存的歷史數據非常少。數據集市以企業數據倉庫為基礎進行更新。對于數據集市來說大約每周更新一次非常平常。但是,數據集市的更新時間可以少于一周也可以多于一周,這主要是由數據集市所屬部門的需求來決定的。04如何建立數據集市?數據倉庫(集市)的設計可以采用迭代式的方法。在迭代式開發中,每個迭代為上一次的結果增加了新的功能。功能增加的順序要考慮到迭代平衡以及盡早發現重大風險。通俗地說,就是在正式交貨之前多次給客戶交付不完善的中間產品“試用”。這些中間產品會有一些功能還沒有添加進去、還不穩定,但是客戶提出修改意見以后,開發人員能夠更好地理解客戶的需求。如此反復,使得產品在質量上能夠逐漸逼近客戶的要求。這種開發方法周期長、成本高,但是它能夠避免整個項目推倒重來的風險,比較適合大項目、高風險項目。理論上講,應該有一個總的數據倉庫的概念,然后才有數據集市。實際建設數據倉庫(集市)的時候,國內很少這么做。國內一般會先從數據集市入手,就某一個特定的主題(比如企業的客戶信息)先做數據集市,再建設數據倉庫。數據倉庫和數據集市建立的先后次序之分,是和設計方法緊密相關的。而數據倉庫作為工程學科,并沒有對錯之分,主要判別方式應該是能否解決目前存在的實際問題,并為今后可能發生的問題保持一定的可伸縮性。05數據倉庫建模與數據集市建模數據只是所有業務活動、資源以及企業結果的記錄。數據模型是對那些數據的組織良好的抽象,因此數據模型成為理解和管理企業業務的最佳方法是極其自然的。數據模型起到了指導或計劃數據倉庫的實現的作用。在真正的實現開始之前,聯合每個業務領域的數據模型可以幫助確保其結果是有效的數據倉庫,并且可以幫助減少實現的成本。(1)數據倉庫的建模數據倉庫數據的建模是將需求轉換成圖畫以及支持表示那些需求的元數據的過程。出于易讀性目的,本文將關于需求和建模的討論相分離,但實際上這些步驟通常是重疊的。一旦在文檔中記錄一些初始需求,初始模型就開始成型。隨著需求變得更加完整,模型也會如此。最重要的是向終端用戶提供良好集成并易于解釋的數據倉庫的邏輯模型。這些邏輯模型是數據倉庫元數據的核心之一。為終端用戶提供的簡單性以及歷史數據的集成和聯合是建模方法應該幫助提供的關鍵原則。(2)數據集市的數據建模因為倉庫終端用戶直接與數據集市進行交互,所以數據集市的建模是捕獲終端用戶業務需求的最有效工具之一。數據集市的建模過程取決于許多因素。下面描述了三個最重要的:數據集市的建模是終端用戶驅動的。終端用戶必須參與數據集市的建模過程,因為他們顯然是要使用該數據集市的人。因為您應期望終端用戶完全不熟悉復雜的數據模型,所以應該將建模技術和建模過程作為整體進行組織,以便使復雜性對終端用戶透明。數據集市的建模是由業務需求驅動的。數據集市模型對于捕獲業務需求十分有用,因為它們通常由終端用戶直接使用,且易于理解。數據集市的建模極大地受到了數據分析技術的影響。數據分析技術可以影響所選擇的數據模型的類型及其內容。目前,有幾種常用的數據分析技術:查詢和報表制作、多維分析以及數據挖掘。如果僅僅意圖提供查詢和報表制作功能,那么帶有正規(normalized)或非正規(denormalized)數據結構的ER模型就是最合適的。維度數據模型也可能是較好的選擇,因為它是用戶友好的,并具有更好的性能。如果其目標是執行多維數據分析,那么維度數據模型就是這里的惟一選擇。然而,數據挖掘通常在可用的最低細節級(levelofdetail)工作得最好。因此,如果數據倉庫是用于數據挖掘的,就應該在模型中包含較低細節級(levelofdetail)的數據。06數據集市常見的誤區誤區1:數據集市是比較小的。用大小來判斷一個企業是在實施數據倉庫還是數據集市的做法是很天真的。一種定義認為數據量小于50GB的數據庫是數據集市,大于50GB的是數據倉庫。事實上,數據集市集中解決的是某一種業務功能的特殊需要,并且維持數據和數據模型來滿足
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 儲存柜內部存儲空間優化考核試卷
- 農產品貿易對農村經濟發展的影響評估考核試卷
- 個性化印刷服務考核試卷
- 風險評價與安全生產標準化融合考核試卷
- 省駕照考試試題及答案
- 社工基礎考試試題及答案
- 職業健康與衛生知識普及考核試卷
- 邢臺銀行考試試題及答案
- 規律推理試題及答案
- 冰雪樂園面試題及答案
- 2025年數字媒體藝術考試試卷及答案
- 新生兒高膽紅素血癥診治指南(2025)解讀
- T∕CWEA 29-2024 水利水電工程砌石壩施工規范
- 在線媒體輿情公關合同(2篇)
- 西學中結業考核復習測試有答案
- 2024-2025學年高二下學期《雙休政策下AI如何助力高中生高效學習?》主題班會課件
- 家鄉橋梁可行性研究報告
- 大模型在證券行業合規的應用
- 中國常規肺功能檢查基層指南(2024年)
- 花椒編制說明
- 2025固定式無人機偵測反制設備技術要求
評論
0/150
提交評論