




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù),聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘數(shù)據(jù)挖掘Data Warehousing, OLAP, and Data Mining 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù) : 一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過(guò)程。 OLAP 與與 數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具 : 是兩種主要的分析工具,提供給決策者對(duì)數(shù)據(jù)進(jìn)行分析,以針對(duì)分析結(jié)果做出決策。概要概要數(shù)據(jù)倉(cāng)庫(kù)的引出數(shù)據(jù)倉(cāng)庫(kù)的引出 1.傳統(tǒng)數(shù)據(jù)庫(kù)以及OLTP(On-Line Transaction Processing 聯(lián)機(jī)事務(wù)處理)在日常的管理事務(wù)處理中獲得了巨大的成功,但是對(duì)管理人員的決策分析要求卻無(wú)法滿足。 2.因?yàn)?/p>
2、,管理人員常常希望能夠通過(guò)對(duì)組織中的大量數(shù)據(jù)進(jìn)行分析,了解業(yè)務(wù)的的發(fā)展趨勢(shì)。而傳統(tǒng)數(shù)據(jù)庫(kù)只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量的歷史信息。 3.為滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫(kù)的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境數(shù)據(jù)倉(cāng)庫(kù)(Data Warehose)。數(shù)據(jù)倉(cāng)庫(kù)的定義與基本特性數(shù)據(jù)倉(cāng)庫(kù)的定義與基本特性 1. 數(shù)據(jù)倉(cāng)庫(kù)的定義 William H.Inmon在1993年所寫(xiě)的論著B(niǎo)uilding the DataWarehouse首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的思想、理論,為數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉(cāng)庫(kù)定義為: a data warehouse is a su
3、bject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一個(gè)面向主題的、集成的、非易失性的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理層決策過(guò)程。 2.數(shù)據(jù)倉(cāng)庫(kù)的重要特性 a) subject-oriented(面向主題性面向主題性) 面向主題表示了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)由數(shù)據(jù)都是圍繞著某一主題組織展開(kāi)的。由于數(shù)據(jù)倉(cāng)庫(kù)的用戶大多是企業(yè)的管理決策者,這些人所面對(duì)的往往是一些比較抽象的、層次較高的管理分析對(duì)象。例如,企
4、業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對(duì)信主題就是在一個(gè)較高的管理層次上對(duì)信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。的分析對(duì)象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對(duì)分析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉對(duì)分析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。 數(shù)據(jù)倉(cāng)庫(kù)的集成性是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進(jìn)行
5、抽取、篩選、清理、綜合等工作,使數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)具有集成性。b) integrated (數(shù)據(jù)集成性數(shù)據(jù)集成性) 數(shù)據(jù)倉(cāng)庫(kù)在從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時(shí),并不能將源數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接加載到數(shù)據(jù)倉(cāng)庫(kù)中,而是需要進(jìn)行一系列的數(shù)據(jù)預(yù)處理,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。 也就是說(shuō),首先要從源數(shù)據(jù)庫(kù)中挑選出數(shù)據(jù)倉(cāng)庫(kù)所需要的數(shù)據(jù),然后將這些來(lái)自不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照某一標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,即將不同數(shù)據(jù)源中的數(shù)據(jù)的單位、字長(zhǎng)與內(nèi)容按照數(shù)據(jù)倉(cāng)庫(kù)的要求統(tǒng)一起來(lái),消除源數(shù)據(jù)中字段的同名異義、異名同義現(xiàn)象,這些工作稱為數(shù)據(jù)的清理清理(clean),把數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)呈現(xiàn)給用戶一個(gè)一致統(tǒng)一的視圖。 源數(shù)據(jù)加載到數(shù)據(jù)
6、倉(cāng)庫(kù)后,還要根據(jù)決策分析的 需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。 數(shù)據(jù)倉(cāng)庫(kù)的時(shí)變性,就是數(shù)據(jù)應(yīng)該隨著時(shí)間的推移而變化。c) time-variant 數(shù)據(jù)的時(shí)變性 盡管數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫(kù)那樣反 映業(yè)務(wù)處理的實(shí)際狀況,但是數(shù)據(jù)也不能長(zhǎng)期不 變,如果依據(jù)10前的數(shù)據(jù)進(jìn)行決策分析,那決策 所帶來(lái)的后果將是十分可怕的。 因此,數(shù)據(jù)倉(cāng)庫(kù)必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉(cāng)庫(kù)中去,也就是說(shuō)在數(shù)據(jù)倉(cāng)庫(kù)中必須不斷的生成主題的新快照,以滿足決策分析的需要。數(shù)據(jù)新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。 例如,如果分析企業(yè)近幾年的銷售情況,那快照 可以每隔一
7、個(gè)月生成一次;如果分析一個(gè)月的暢銷產(chǎn)品,那快照生成間隔就需要每天一次。d) non-volatile 數(shù)據(jù)的非易失性 數(shù)據(jù)倉(cāng)庫(kù)的非易失性是指數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,就會(huì)保持一個(gè)相當(dāng)長(zhǎng)的時(shí)間。因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)大多表示過(guò)去某一時(shí)刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫(kù)那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是錯(cuò)誤的。e) in support of management decisions 支持決策系統(tǒng)支持決策系統(tǒng) 數(shù)據(jù)倉(cāng)庫(kù)的組織的根本目的在于對(duì)決策的支持。高層的企業(yè)決策者、中層的管理者和基層的業(yè)務(wù)處理者等不同層次的管理人員均可以利用數(shù)據(jù)倉(cāng)
8、庫(kù)進(jìn)行決策分析,提高管理決策的質(zhì)量。 企業(yè)管理人員可以利用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種管理決策的分析,利用自己所特有的、敏銳的商業(yè)洞察力和業(yè)務(wù)知識(shí)從貌似平淡的數(shù)據(jù)發(fā)現(xiàn)眾多的商機(jī)。數(shù)據(jù)倉(cāng)庫(kù)為管理者利用數(shù)據(jù)進(jìn)行管理決策分析提供了極大的便利。對(duì)比內(nèi)容對(duì)比內(nèi)容數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序、重復(fù)處理面向主體域、管理決策分析應(yīng)用數(shù)據(jù)特性動(dòng)態(tài)變化、按字段更新靜態(tài)、不能直接更新、只是定時(shí)添加數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜、市和操作計(jì)算簡(jiǎn)單、適合分析使用頻率高中到低數(shù)據(jù)訪問(wèn)量每個(gè)事務(wù)只訪問(wèn)少量記錄有的事務(wù)可能要訪問(wèn)大量記錄對(duì)相應(yīng)時(shí)間的要求以秒為單位計(jì)量以秒、
9、分鐘、甚至小時(shí)為計(jì)量單位數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較 盡管OLTP系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)有著許多不同的特性且基本構(gòu)建思想不同,但是他們卻是緊密聯(lián)系的,因?yàn)镺LTP系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源。 OLTP系統(tǒng)并不是為了快速回答查詢,也不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)建的。一般的,OLTP提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)不易被分析。 數(shù)據(jù)倉(cāng)庫(kù)需要回答更復(fù)雜的查詢,而不僅僅使一些像“英國(guó)主要城市的商品平均銷售價(jià)格是多少”之類的簡(jiǎn)單聚集數(shù)據(jù)查詢。 數(shù)據(jù)倉(cāng)庫(kù)需要回答的查詢類型可以是簡(jiǎn)單的查詢,也可以是高度復(fù)雜的,且還與終端用戶使用的查詢工具相關(guān)。 DreamHome數(shù)據(jù)倉(cāng)庫(kù)的示例支持以下查詢
10、:2001年第三季度,整個(gè)英格蘭的總收入是多少?2000年英國(guó)每一類房產(chǎn)銷售的總收入是多少?2001年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡迎?與過(guò)去的兩年相比有何不同?每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過(guò)去的12個(gè)月相比較。如果對(duì)于10萬(wàn)英鎊以上的房產(chǎn),法定價(jià)格上升3.5%而政府稅收下降1.5%,對(duì)英國(guó)不同區(qū)域的銷售會(huì)產(chǎn)生什么影響?在英國(guó)主要城市中,哪種類型的房產(chǎn)銷售價(jià)格高于平均房產(chǎn)銷售價(jià)格?這與人口統(tǒng)計(jì)數(shù)據(jù)有何聯(lián)系?數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)案例數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)案例 啤酒與尿布的故事啤酒與尿布的故事某大型超市發(fā)現(xiàn)每到周末,啤酒與尿布的銷量就會(huì)同時(shí)大增,這是什么原因呢? 經(jīng)過(guò)研究人員分析發(fā)現(xiàn),原
11、來(lái)家里的太太們讓丈夫們?nèi)コ薪o孩子買尿布,而丈夫們?cè)谫I尿布的時(shí)候往往順便買上幾瓶啤酒回去喝。這樣就產(chǎn)生了這個(gè)比較奇怪的現(xiàn)象。 沃爾瑪早年利用NCR數(shù)據(jù)倉(cāng)庫(kù)技術(shù),對(duì)商品進(jìn)行市場(chǎng)類組分析,即分析哪些商品顧客最有希望一起購(gòu)買。沃爾瑪利用NCR自動(dòng)數(shù)據(jù)挖掘工具(模式識(shí)別軟件)對(duì)一年多詳細(xì)的原始交易數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)就是:跟尿布一起購(gòu)買最多的商品竟是啤酒!沃爾瑪就在它的一個(gè)個(gè)商店里將它們并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長(zhǎng)。 來(lái)自美國(guó)俄亥俄州的NCR公司(紐約證券交易所股票代碼為NCR)是全球領(lǐng)先的信息技術(shù)公司之一,為全球超過(guò)130個(gè)國(guó)家提供零售解決方案,業(yè)務(wù)涵蓋食品店、藥店
12、、綜合性商場(chǎng)、超市、連鎖店及餐飲業(yè)等市場(chǎng),2001年總收益達(dá)59.17億美元。世界十大零售商中,就有六家應(yīng)用NCR提供的零售業(yè)全面解決方案。數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu) 圖示: datawarehouse_av.gif 操作型數(shù)據(jù)操作型數(shù)據(jù) 加載管理器加載管理器 : 執(zhí)行所有與提取和裝載數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的有關(guān)操作。 倉(cāng)庫(kù)管理器倉(cāng)庫(kù)管理器 : 執(zhí)行管理一個(gè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)所有的必要程序,它可以由一些外購(gòu)的數(shù)據(jù)管理工具和針對(duì)特殊需要編寫(xiě)的程序組成。包括以下工作:1.數(shù)據(jù)分析以確保一致性 2.將臨時(shí)存儲(chǔ)介質(zhì)中的數(shù)據(jù)轉(zhuǎn)換和合并后加載到數(shù)據(jù)倉(cāng)庫(kù)表中 3.為基礎(chǔ)表創(chuàng)建索引和視圖 4.依據(jù)需要,對(duì)數(shù)據(jù)進(jìn)行
13、弱規(guī)范化5.依據(jù)需要,生成聚集信息6.備份和歸檔數(shù)據(jù) 查詢管理器查詢管理器 : 執(zhí)行所有數(shù)據(jù)倉(cāng)庫(kù)中與查詢工作相關(guān)的管理工作。 細(xì)節(jié)數(shù)據(jù)細(xì)節(jié)數(shù)據(jù) : 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)了許多數(shù)據(jù)庫(kù)模式中的細(xì)節(jié)數(shù)據(jù) 輕度和高度綜合數(shù)據(jù)輕度和高度綜合數(shù)據(jù) : 數(shù)據(jù)倉(cāng)庫(kù)中存放了許多由 倉(cāng)庫(kù)管理器產(chǎn)生的預(yù)定義的輕度或高度綜合(聚集的)數(shù)據(jù)。 存儲(chǔ)存儲(chǔ)/備份數(shù)據(jù)備份數(shù)據(jù) : 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)了用于備份和存檔的許多細(xì)節(jié)和綜合數(shù)據(jù)。盡管綜合數(shù)據(jù)是從細(xì)節(jié)數(shù)據(jù)中產(chǎn)生的,但還是有必要備份這些綜合數(shù)據(jù),因?yàn)樗麄兛赡芤呀?jīng)超過(guò)了細(xì)節(jié)數(shù)據(jù)的保持期。這些數(shù)據(jù)要轉(zhuǎn)移到存儲(chǔ)檔案中,如磁盤或光盤上。 元數(shù)據(jù)元數(shù)據(jù)(metadata): 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)了
14、所有的元數(shù)據(jù)定義,這些定義可用于數(shù)據(jù)倉(cāng)庫(kù)中的所有過(guò)程。元數(shù)據(jù)的用途包括 : 1.數(shù)據(jù)抽取和加載過(guò)程: 元數(shù)據(jù)可用于將數(shù)據(jù)影射到數(shù)據(jù)倉(cāng)庫(kù)的通用數(shù)據(jù)視圖中。 2.數(shù)據(jù)倉(cāng)庫(kù)管理過(guò)程: 元數(shù)據(jù)可用于自動(dòng)產(chǎn)生表。 3.作為查詢過(guò)程的一部分: 元數(shù)據(jù)可用于將查詢指定到最合適的數(shù)據(jù)源。 終端用戶訪問(wèn)工具終端用戶訪問(wèn)工具 數(shù)據(jù)倉(cāng)庫(kù)的主要目的是為了給業(yè)務(wù)用戶提供決策信息。這些用戶通過(guò)終端用戶訪問(wèn)工具與數(shù)據(jù)倉(cāng)庫(kù)交互。數(shù)據(jù)倉(cāng)庫(kù)必須有效地支持查詢和例行分析。 這些工具一般分為 : a. 報(bào)表和查詢工具 b. 應(yīng)用程序開(kāi)發(fā)工具 c. 可執(zhí)行信息系統(tǒng)工具 d. 聯(lián)機(jī)分析處理工具 e. 數(shù)據(jù)挖掘工具OLAP技術(shù)技術(shù) 數(shù)據(jù)倉(cāng)
15、庫(kù)是管理決策分析的基礎(chǔ),要有效地利用數(shù)據(jù)倉(cāng)庫(kù)的信息資源,必須要有強(qiáng)大的工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)的信息進(jìn)行分析決策。On-line Analytical Processing(在線分析處理或聯(lián)機(jī)分析處理在線分析處理或聯(lián)機(jī)分析處理)就是一個(gè)應(yīng)用廣泛的數(shù)據(jù)倉(cāng)庫(kù)使用技術(shù)。它可以根據(jù)分析人員的要求,迅速靈活地對(duì)當(dāng)量的數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運(yùn)營(yíng)情況,了解市場(chǎng)的需求。發(fā)展背景發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.C
16、odd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。 OLTP數(shù)據(jù) OLAP數(shù)據(jù) 原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細(xì)節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大面向應(yīng)用,事務(wù)驅(qū)動(dòng) 面向分析,分析驅(qū)動(dòng)面向操作人員,支持日常操作 面向決策人員,支持管理需要二、什么是二、什么是OLAP
17、? 定義定義1 :OLAP(聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理)是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析。通過(guò)對(duì)信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。 定義定義2 :OLAP(聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義) OLAP的目標(biāo)的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說(shuō)是多維數(shù)據(jù)分
18、析工具的集合。相關(guān)基本概念相關(guān)基本概念 1.維:維:是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。 2.維的層次:維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。 3.維的成員:維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述) 4.多維數(shù)據(jù)集多維數(shù)據(jù)集:是決策分析的支柱,OLAP的核心,有時(shí)也稱立方體或者超立方。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。多維數(shù)據(jù)集可以用一個(gè)多維數(shù)組來(lái)表示。 5.多維數(shù)組:多維數(shù)組:維和變量的組合表示。一
19、個(gè)多維數(shù)組可以表示為:(維1,維2,維n,觀察變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額) 6.數(shù)據(jù)單元數(shù)據(jù)單元(單元格單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 底層數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,使用稱作網(wǎng)間連接程序的應(yīng)用程序,由操作數(shù)據(jù)庫(kù)和外部數(shù)據(jù)源提取數(shù)據(jù). 中間層是OLAP服務(wù)器,實(shí)現(xiàn)方法有 關(guān)系OLAP模型ROLAP 在多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系模型 多維OLAP模型MOLAP 直接實(shí)現(xiàn)多維數(shù)據(jù)的操作 頂層是客戶,它包括查詢和報(bào)告工具,分析工具和數(shù)據(jù)挖掘工具(例如趨勢(shì)分析,預(yù)測(cè)等)業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉(cāng)庫(kù)OLAP服務(wù)器客戶端可視化處理底層底層
20、中間層中間層頂層頂層數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)清理數(shù)據(jù)清理 轉(zhuǎn)換轉(zhuǎn)換多維化多維化數(shù)據(jù)加載數(shù)據(jù)加載OLAP的特性1. 快速性. 用戶對(duì)OLAP的快速反應(yīng)能力有很高的要求。2. 可分析性. OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的邏輯與統(tǒng)計(jì)分析。3. 多維性. 多維性是OLAP的關(guān)鍵屬性。系統(tǒng)能夠提供對(duì)數(shù)據(jù)分析的多維視圖和多維分析。4.信息型. 不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲(chǔ)在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。OLAP多維數(shù)據(jù)分析多維數(shù)據(jù)分析 1.1.切片和切塊切片和切塊(Slice and Dice(Slice and Dice) )在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進(jìn)行切片,按三維進(jìn)行切塊,可
21、得到所需要的數(shù)據(jù)。如在“城市、產(chǎn)品、時(shí)間”三維立方體中進(jìn)行切塊和切片,可得到各城市、各產(chǎn)品的銷售情況。 2.2.鉆取鉆取(Drill)(Drill) 鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作, 鉆取的深度與維所劃分的層次相對(duì)應(yīng)。 3.3.旋轉(zhuǎn)旋轉(zhuǎn)(Rotate)/(Rotate)/轉(zhuǎn)軸轉(zhuǎn)軸(Pivot)(Pivot)通過(guò)旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。OLAP的分析方法的分析方法(一一)切片切片(slicing)、切塊、切塊(dicing)OLAP的分析方法的分析方法(二二)鉆取鉆取(drill-down)按時(shí)間維向下鉆取按時(shí)間維向上鉆取60OLAP的分析方法的分析方法(三三)旋轉(zhuǎn)旋轉(zhuǎn)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年中考押題預(yù)測(cè)卷02(無(wú)錫卷)-道德與法治(考試版)A3
- 容易出錯(cuò)小學(xué)題目及答案
- 2023-2024學(xué)年河南省信陽(yáng)市淮濱縣多校高二下學(xué)期7月期末考試數(shù)學(xué)試題(解析版)
- 江蘇宏亞包裝科技有限公司宏亞包裝項(xiàng)目環(huán)評(píng)資料環(huán)境影響
- 2025年秋三年級(jí)上冊(cè)語(yǔ)文同步教案 9 犟龜
- 室友伴娘致辭
- 作業(yè)規(guī)程復(fù)審管理制度
- 佩戴口罩專人管理制度
- 飛機(jī)裝配工藝學(xué)
- 供水公司客服管理制度
- 房車租賃合同協(xié)議
- 變電站事故安全教育培訓(xùn)
- 婚禮司儀主持培訓(xùn)
- 新工科背景下大學(xué)化學(xué)課程的創(chuàng)新與實(shí)踐探索
- 萬(wàn)科集團(tuán)財(cái)務(wù)管理制度手冊(cè)2024
- 基于AI的年度營(yíng)銷策略創(chuàng)新
- 校園通創(chuàng)業(yè)計(jì)劃書(shū)
- 2025陜煤集團(tuán)榆林化學(xué)有限責(zé)任公司招聘(300人)筆試參考題庫(kù)附帶答案詳解
- 臨床重癥患者坐式八段錦要點(diǎn)、適應(yīng)人群、效果及注意事項(xiàng)
- 2024年四川省內(nèi)江市資中縣小升初數(shù)學(xué)試卷
- 地理-2025年江西省中考第一次模擬考試(全解全析)
評(píng)論
0/150
提交評(píng)論