




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據倉庫基本概念對數據倉庫最大的誤解是把它當作一個現成的可以直接買來使用的產品。數據倉庫和數據庫不同,它不是現成的軟件或者硬件產品。確切說,數據倉庫是一種解決方案,是對原始的操作數據進行各種處理并轉換成有用信息的處理過程,用戶可以通過分析這些信息從而作出策略性的決策。隨著計算機技術的迅速發展,信息處理技術也得到了長足的發展,從70年代中期的MIS系統發展到現代的數據倉庫(DataWarehouse)技術。許多廠商都在開發自已的數據倉庫解決方案,并通過各種渠道大力推廣。但就數據倉庫技術而言,目前仍存在著許多認識上的誤區,本文將著重介紹一些數據倉庫的基本概念以及建立數據倉庫時應該注意的一些情況。數據倉庫不是現成軟件或硬件產品對數據倉庫最大的誤解可能是把它當作一個現成的可以直接買來使用的產品。事實上,數據倉庫和數據庫不同,它不是現成的軟件或者硬件產品。比較確切地說,數據倉庫是一種解決方案,是對原始的操作數據進行各種處理并轉換成有用信息的處理過程,用戶可以通過分析這些信息從而作出策略性的決策。因此,在很多場合,我們也把數據倉庫系統稱為決策支持系統。由于這個原因,數據倉庫的用戶不是類似銀行柜員的終端操作人員,而是針對各個業務部門的用戶和有關決策人員。因此,數據倉庫的用戶比傳統的OLTP(聯機事務處理:On-lineTransactionProcessing)用戶少得多。OLTP與OLAPOLTP系統也稱為生產系統,它是事件驅動、面向應用的,比如銀行的儲蓄系統就是一個典型的OLTP系統。OLTP的基本特點是:·對響應時間要求非常高;·用戶數量非常龐大,主要是操作人員;·數據庫的各種操作基于索引進行。OLAP(聯機分析處理:On-lineAnalyticalProcessing)是基于數據倉庫的信息分析處理過程,是數據倉庫的用戶接口部分。OLAP系統是跨部門、面向主題的,其基本特點是:·基礎數據來源于生產系統中的操作數據(OperationalData);·響應時間合理;·用戶數量相對較小,其用戶主要是業務決策與管理人員;·數據庫的各種操作不能完全基于索引進行。OLAP工具是整個數據倉庫解決方案中不可缺少的一部分,目前市場上有許多這類成熟的產品,如NCR的QueryMan、Andyne軟件公司的GQL(GraphicQueryLanguage)、BrioTechnology公司的BrioQuery等等。這些產品大都運行在Windows環境下,具有友好的用戶界面,通過ODBC驅動程序和TCP/IP協議與數據庫系統相連,是一種典型的Client/Server結構。這些OLAP工具的特點是用戶不需要掌握很深的SQL知識就可使用。用戶提出問題后,這些工具能自動加以分析,根據系統的數據庫模型產生SQL語句,通過ODBC接口向服務器數據庫提出交易請求,然后將主機返回的結果以用戶指定的方式顯示出來。它們一般在本地維護一個多維數據庫,把結果保存在本地庫中,因此可以離線工作。數據倉庫系統的查詢特點數據倉庫和生產系統不同,它保存的是歷史數據,一般不作修改,因此用戶針對數據倉庫的交易主要是查詢。數據倉庫的查詢和生產系統的查詢有很大的區別。針對生產系統的查詢都很簡單,一般不會使用表連接操作(TableJoin),每次返回的數據量很小,這類問題的特點是"知道自已要找什么",例如根據銀行帳號查余額。這類操作都是基于索引進行的,如帳號可以作為儲蓄系統的索引。由于這些特點,數據庫大小對系統性能影響不大。針對數據倉庫系統的查詢大都非常復雜,主要有兩種:一種以報表為主,從數據庫中產生各種形式的業務報表。這種查詢是預先規劃好的(Pre-definedQuery);另一種則是隨機的、動態的查詢(Ad-HocQuery),對查詢的結果也是不能預料的。例如世界上最大的連鎖超市集團Wal*Mart曾經發現在周未的時候啤酒與一次性尿布的銷售量很大,有關人員通過對數據倉庫中的信息進行分析,尋找這兩種商品的共同點,結果發現很多父親在購買啤酒時喜歡順便捎些尿布,于是他們把這兩種商品放在很近的位置,方便父親們購買,結果這兩種商品的銷售量都增加了很多。數據倉庫中的查詢由于其復雜性,會經常使用多表的聯接、累計、分類、排序等操作,這些大都要對整個表進行搜索。每次查詢返回的數據量一般很大,對于Ad-Hoc查詢而言,經常需要根據上次查詢的結果進行進一步的搜索,這個過程常稱為數據挖掘。根據這些特點,數據庫大小對數據倉庫系統的性能影響很大。當數據倉庫投入使用后,各業務部門的要求會越來越多,使得數據倉庫中數據量的增長速度很快,因此設計數據倉庫時,系統的可擴展能力是必須考慮的重要因素之一。系統的并行處理能力是另一個要考慮的重要因素。因為查詢的復雜性,每個查詢將占用很多的系統資源,如果并行處理能力不強,當多個用戶同時發出交易請求時,響應時間可能長得不可容忍。詳細數據與小結數據下圖(注:圖未能找到,酷勤網深表抱歉,下同)可以清楚地說明詳細數據(DetailData)與小結數據(SummaryData)的作用和區別。左邊一列記載了掃描儀在每個連鎖店每天的交易細節(數量、交易時間、交易地點、類型、客戶、售貨員等),中間一列記錄了掃描儀每天按連鎖店分類的交易匯總情況,右邊一列記錄了掃描儀每周按連鎖店分類的交易匯總情況。由此可見,小結可以是多種層次的。@@0211800.JPG;圖1@@詳細數據中包含了許多有價值的信息,經小結處理后,可能會丟失這些信息。舉例來說,市場行銷人員規劃在某個星期二和星期三進行掃描儀的產品推銷活動(如采取一些優惠措施),如果他們只知道每周掃描儀的銷售量,怎么能看出這個推銷活動的效果?又如何來分析客戶的購買行為?由此可見,為了更準確地分析市場發展規律,提高企業的竟爭優勢,數據倉庫中應該存儲盡可能詳細的數據,為決策提供更加可靠的信息。如前面提到的Wal*Mart集團,其全世界所有連鎖店每天的交易數據都會通過衛星傳送到在美國的中央數據倉庫,如果顧客買了兩枝同樣型號但不同顏色的鉛筆,在數據倉庫中都是兩條記錄,因為據此可以分析對不同顏色鉛筆的需求規律,從而確定貨存量等。既然詳細數據的作用如此大,為什么還要對其進行小結處理呢?主要原因是:1.數據倉庫的引擎(數據庫系統)不適合處理大量的數據,前面已經說明,在數據倉庫中數據量大小對系統整體性能影響很大,而能在OLTP系統中處理TB級數據并不能代表在數據倉庫中也能處理TB級數據。2.降低存儲系統投資。在以前,存儲介質是非常昂貴的。3.降低MIPS投資。盡管計算機性能已經有了很大提高,開放系統的價格一降再降,但直到現在,專用大型主機的MIPS仍然非常昂貴。由此可見,選擇能支持TB級數據倉庫的數據庫系統和在開放環境下建立數據倉庫是非常重要的。數據倉庫與數據集市數據集市(DataMart)也是當前非常熱門的一個術語,一種比較常見的誤解是認為它與數據倉庫的差別只是數據量的大小而已。事實上,數據倉庫是企業級的,能為整個企業各個部門的運行提供決策支持手段;而數據集市是部門級的,一般只能為某個局部范圍內的管理人員服務。有些供應商也稱之為部門級數據倉庫(DepartmentalDataWarehouse)。數據集市有兩種,即獨立的數據集市(IndependentDataMart)和從屬的數據集市(DependentDataMart)。從下圖可以清楚地看到數據倉庫、從屬數據集市與獨立數據集市之間的關系:圖中左邊表示的是企業數據倉庫的邏輯結構。我們看到,其中的數據來自于各生產系統,把它們的操作數據按照企業數據倉庫物理模型結構的定義轉換過來。采用這種中央數據倉庫的做法,可以保證現實世界的一致性。中間表示的是從屬數據集市的邏輯結構。所謂從屬,是指它的數據直接來自于中央數據倉庫。顯然,這種結構仍能保持數據的一致性。一般情況下,為那些訪問數據倉庫十分頻繁的關鍵業務部門建立從屬的數據集市,這樣可以很好地提高查詢的反應速度。另外一個原因是:在設計數據倉庫的邏輯模型時,為了保證結構清楚,降低數據冗余度,一般都按第三范式(3NF:ThirdNormalForm)來設計。但在物理實現時,出于性能方面的考慮,常常要作非正則處理(De-Normalize),使得中央庫的復雜性增加,不易維護,數據冗余大。因此,當中央數據倉庫十分龐大時,我們一般不對中央庫作非正則處理,而是建立一個從屬數據集市,對它作非正則處理,這樣既能提高響應速度,又能保證整個系統的易維護性。其代價是增加了對數據集市的投資。右邊描述了獨立數據集市的邏輯結構,它的數據直接來源于各生產系統。許多企業在計劃實施數據倉庫時,往往出于投資方面的考慮,最后建成的就是這種結構的獨立數據集市,用來解決個別部門比較迫切的決策問題。從這個意義上講,它和企業數據倉庫除了在數據量大小和服務對象上有所區別外,邏輯結構并無多大區別,也許這是把數據集市稱為部門數據倉庫的主要原因。關鍵問題在于:隨著需求的增加,數據量也會迅速增加,系統規模將迅速擴大,是把原來的獨立數據集市擴展成為上圖中左邊的企業數據倉庫呢?還是為各部門分別建立獨立的數據集市形成如下圖所示的繁雜系統?在這種結構中,IT部門必須設計多個數據轉換程序,把各生產系統的操作數據轉換到每個獨立數據集市中,以便保持數據的一致性。顯然,這種策略將使整個系統變得非常復雜難于維護,在投資方面更是得不償失,因為硬件系統的投資成比例增加,軟件方面的投資和維護方面的投資則成指數形式增加。既然這種分布式的獨立數據集市結構有諸多問題,為什么還有一些企業仍在這樣做呢?回答是"不得已而為之"。因為硬件平臺或者數據庫在擴展性方面限制太多,并行處理能力不夠,無法處理大量的數據,最后只能形成這種尷尬局面。如何衡量數據倉庫引擎從前面的分析我們可以看到,作為數據倉庫引擎的數據庫管理系統,其性能的優劣對整個數據倉庫解決方案的成功實施起著舉足輕重的作用。那么,如何來衡量一個數據庫管理系統是否適合作為數據倉庫引擎呢?大家可能都知道,在國際上有一個叫TPC的組織。TPC是事務處理委員會(TransactionProcessingPerformanceCouncil)的英文縮寫,是一個國際性的組織,由45個會員公司組成,IBM、Microsoft、NCR、NEC、DEC、HP、SUN等跨國公司都是其會員。TPC專門負責為各種開放平臺在不同類型的應用上制定一個統一、公正的測試標準。在國際上,對于IT行業的供應商來說,進行TPC規定的測試是它們進入各領域的敲門磚。對于OLTP系統,衡量其數據庫性能的主要指標是TPC-C,這里不作分析。對于數據倉庫系統,衡量其數據庫性能的主要指標則是TPC-D。主要有三方面的數據需要考慮:QppD:這個數據描述了系統的查詢處理能力,它是QueryProcessingPowerD的縮寫(D表示這個結果是按照TPC-D標準測得的,下同)。QthD:是QueryThroughputD的縮寫,即流量測試結果,描述了系統在多個用戶同時進行查詢時的處理能力。換言之,它也充分代表了系統的并行處理能力。QphD:是QueryPrice-PerformanceD的縮寫,即性能價格比。顯然,前面兩個指標的數據越大越好,而最后一個則越小越好。當然,首先要考慮的應該是能否滿足業務上的需求。關于TPC的介紹已經很多,這里不再重復。各家供應商的TPC-D值以及TPC-D的詳細描述可以從TPC在Internet的主頁上找到,其Web地址為:/。另外,也可以從Microsoft、IDEAS等公司的主頁上找到TPC-D的測試結果。需要作些說明的是流量測試結果。盡管它描述了系統處理并發查詢請求的能力,但并非所有廠商的流量測試都是在多用戶狀態下進行的,因為TPC-D給了供應商們一個選擇:直接進行多用戶狀態下的流量測試;或者先在單用戶狀態下進行測試,然后利用測得的處理能力指標QppD和流量指標的計算公式來"計算"出QthD。如何區分這兩種測試結果呢?TPC-D的測試概要(ExecutiveSummary)中清楚地說明了在作流量測試時的STREAM數目。STREAM數實際上代表了同時遞交查詢請求的用戶個數。如果是單用戶狀態下進行測試,則只能發現一個STREAM,即STREAM00。到目前為止,還只有NCR公司的Teradata數據庫系統是在多用戶狀態下進行流量測試的。TPC-D的測試是在不同的數據庫級別上進行的,主要可供參考的是100GB、300GB和1000GB三個級別上的測試結果。下面兩個表是從Microsoft公司的Web頁面上下載的300GB和1000GB兩個級別的TPC-D測試結果。我們看到,在1000GB級別上,目前還只有NCR公司宣布了其TPC-D指標,該結果是在其WorldMark系列服務器和Teradata數據庫系統上進行的。什么是數據倉庫-數據倉庫的基本概念1.數據倉庫概念始于上世紀80年代中期,首次出現是在被譽為“數據倉庫之父”WilliamH.Inmon的《建立數據倉庫》一書中。隨著人們對大型數據系統研究、管理、維護等方面的深刻識認和不斷完善,在總結、豐富、集中多行企業信息的經驗之后,為數據倉庫給出了更為精確的定義,即“數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合”。數據倉庫并沒有嚴格的數據理論基礎,也沒有成熟的基本模式,且更偏向于工程,具有強烈的工程性。通常按其關鍵技術部份分為數據的抽取、存儲與管理以及數據的表現等三個基本方面。數據倉庫的重點與要求是能夠準確、安全、可靠地從數據庫中取出數據,經過加工轉換成有規律信息之后,再供管理人員進行分析使用。數據倉庫主要是應用于決策支持系統,其主要目的是“提取”信息并加以擴展,用來進行處理基于數據倉庫的決策支持系統(DSS)的應用。2基于數據倉庫的決策支持系統(DSS)由三個部件組成:數據倉庫技術(Datawarehousing),聯機分析處理技術(OLAP,On—LineAnalyticalPro—cessing),數據挖掘技術(DataMining)。聯機分析處理(OLAP,On—AnalyticalPro—cessing)是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業給特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。OLAP的目標是滿足決策支持或多維環境特定的查詢和報表需求。數據倉庫側重于存儲和管理面向決策主題的數據;而OLAP側重于數據倉庫的數據分析,并將其轉換成輔助決策信息。OLAP的一個主要特點是多維數據分析,這與數據倉庫的多維數據組織正好形成相互結合、相互補充的關系。問此,利用OLAP技術與數據倉庫的結合可以較好地解決傳統決策支持系統既需要處理大量數據又需要進行大量數值計算的問題。OLAP的多維數據分析主要通過對多維數據的維進行剖切、鉆取和旋轉來實現對數據庫所提供的數據進行深入分析,為決策者提供決策支持。多維結構是決策支持的支柱,也是OLAP的核心。數據挖掘(DataMining)是從大量的、不完全的、有噪聲的。模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘可以看成是一種數據搜尋過程,它不必預先假設或提出問題,但是仍能找到那些非預期的卻令人關注的信息,這些信息表示了數據元素的關系和模式。它能挖掘出數據鍵潛在的模式(pattern),找出最有價值的信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025四川家居裝修工程設計合同(范本)
- 環保產業園2025年產業集聚與環保產業綠色產業綠色技術創新報告:協同發展策略分析
- 新能源汽車充電基礎設施投資策略報告:2025年充電樁建設與運營模式
- 2025展覽場地租賃合同模板
- 城市公共衛生設施2025年規劃與居民生活滿意度調查與提升策略分析報告
- 零售行業私域流量運營全流程解析及效果評估報告
- 環保政策2025年對塑料制品行業市場結構調整的產業鏈優化研究報告
- 晉升副主任醫師個人專業技術工作總結模版
- 農產品無損檢測技術在2025年農產品生產過程中的品質監控策略報告
- 2025年幼兒園教師年度考核個人總結模版
- 行政復議法-形考作業1-國開(ZJ)-參考資料
- 山東省青島市嶗山區育才學校2023-2024學年下學期奇點計劃選拔考試八年級物理試卷
- 工程維保服務內容措施及售后服務專項方案
- 管片基礎知識與管片選型
- 產品標識和可追溯性管理培訓
- 互聯網醫療合作協議書
- 辦公用品售后服務方案
- 區塊鏈與電子商務安全的保障
- 2024-2026年版中國運動康復產業白皮書
- 不銹鋼營銷計劃書
- 部編版五年級語文上冊期末群文閱讀 試卷附答案
評論
0/150
提交評論