數據倉庫數據集市_第1頁
數據倉庫數據集市_第2頁
數據倉庫數據集市_第3頁
數據倉庫數據集市_第4頁
數據倉庫數據集市_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據存儲主講教師:龍霄漢《大數據導論》課程Introductiontobigdata數據倉庫數據倉庫011數據倉庫數據倉庫數據倉庫試圖跨越屬下所有企業,把數據集中起來放進一個單一的數據庫中,提供一個統一的視圖,這些數據將覆蓋許多不同的領域,經常為許多行業服務。這一方法包含了許多工作,尤其需要長期的實施時間和巨額支出。這些不利因素容易使用戶失去信心且錯過許多商業機會,這時出現了成本低廉、創建速度快的數據集市。圖片來自互聯網數據倉庫數據集市是聚焦的、面向特定主題的DW,它通常致力于單一的某個領域,且為特定用戶服務。圖片來自互聯網數據倉庫數據集市有依賴性數據集市和獨立性數據集市之分。依賴性數據集市依靠中央DW進行數據收集和轉換,采用數據立方結構DataCube;獨立性數據集市與其它數據集市沒有關聯,直接從OS中獲取數據。圖片來自互聯網數據倉庫數據集市的特點是有特定的應用、面向部門、規模小、實現速度快、投資小,可擴展成DW。數據集市和DW的根本區別在于涉及范圍的不同而不是規模的大小。圖片來自互聯網數據倉庫數據集市和集中式DW是DW策略的兩種方式。目前流行的做法是首先建立數據集市,然后再將它們集成起來形成企業范圍內的DW。這樣不僅能提供數據集市快速、簡單、靈活和花費少的優點,而且不會犧牲集中式DW一致、可控制和集成化的優勢。圖片來自互聯網數據倉庫但是數據集市畢竟面向部門,部門間差異又較大,將它們集成為企業級DW不是一件容易的事情。對此有兩種解決方法:(1)建立獨立的數據集市,但同時制定一個企業級的全局方案,以便日后將它們集成為企業級DW;(2)以分布式數據集市的形式逐步建立一個完整的DW。圖片來自互聯網數據倉庫作為一個新興領域,數據倉庫技術已取到了長足的進展,甚至出現了不勝枚舉的商用系統和工具。但應該說數據倉庫的研究方興未艾,在許多方面仍值得探討。圖片來自互聯網數據倉庫(1)數據清洗之后的質量評估問題通過模糊匹配、統計分析等方法和技術對不完整的、不一致的、不精確的和重復的臟數據進行清洗之后,需要提供一種方法或手段以檢驗其是否反映了客觀實際,即要對清洗后數據的質量進行評價,同時需要根據評價結果,自適應地選擇清洗方法以重新進行數據清洗。圖片來自互聯網數據倉庫(2)正文數據索引問題DW中有相當一部分數據是描述性文字,因此如何對大量正文建立索引以加快檢索速度是很有實用價值的問題。(3)視圖的實體化問題建立實視圖可以提高系統的響應時間,但由于存儲空間和CPU時間的限制,不可能將所有的視圖實體化。這樣,選擇哪些視圖、選擇多少視圖進行實體化,有了實視圖后如何用這些實視圖完成復雜查詢,也就成了亟待解決的問題。數據倉庫(4)工具插槽及其標準化問題通過在DW中設置通用工具插槽,可以集成更多的第三方工具,使第三方工具真正做到即插即用,但這需要通用工具插槽標準及有關接口規范的支持。如何制定這些標準及接口規范,如何將標準化元數據嵌入其中,也就成了需要研究的一個問題。圖片來自互聯網總結數據倉庫技術已廣泛而成功地應用于諸如制造業、零售業、財務服務、運輸、電信和保健等工業部門,取得了可觀的經濟效益和社會效益,甚至對企業決策機構

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論