CRM與數(shù)據(jù)倉庫概述_第1頁
CRM與數(shù)據(jù)倉庫概述_第2頁
CRM與數(shù)據(jù)倉庫概述_第3頁
CRM與數(shù)據(jù)倉庫概述_第4頁
CRM與數(shù)據(jù)倉庫概述_第5頁
已閱讀5頁,還剩197頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章

CRM與數(shù)據(jù)倉庫

邵兵家于同奎第5章CRM與數(shù)據(jù)倉庫5.1數(shù)據(jù)倉庫概述 5.1.1數(shù)據(jù)倉庫的產(chǎn)生 5.1.2數(shù)據(jù)倉庫概念及特征5.1.3數(shù)據(jù)倉庫的內(nèi)容5.1.3數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)5.2客戶關(guān)系管理中的數(shù)據(jù)倉庫

5.2.1客戶關(guān)系管理需要數(shù)據(jù)倉庫5.2.2客戶關(guān)系管理中數(shù)據(jù)倉庫的作用客戶關(guān)系管理數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.3客戶關(guān)系管理數(shù)據(jù)倉庫的實(shí)施5.4客戶關(guān)系管理數(shù)據(jù)倉庫試驗(yàn)5.4.1客戶關(guān)系管理數(shù)據(jù)倉庫設(shè)計(jì)試驗(yàn)5.4.2客戶關(guān)系管理數(shù)據(jù)倉庫使用試驗(yàn)5.1數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理的很多工作都是以數(shù)據(jù)倉庫為基礎(chǔ)展開的。從某種意義上說,數(shù)據(jù)倉庫是客戶關(guān)系管理的靈魂。利用數(shù)據(jù)倉庫,企業(yè)可以對(duì)客戶行為的分析與預(yù)測(cè),從而制定準(zhǔn)確的市場(chǎng)策略、發(fā)現(xiàn)企業(yè)的重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能,并通過銷售和服務(wù)等部門與客戶交流,實(shí)現(xiàn)企業(yè)利潤(rùn)的提高。對(duì)于客戶量大、市場(chǎng)策略對(duì)企業(yè)影響較大的企業(yè)來說,必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉庫。5.1.1數(shù)據(jù)倉庫的產(chǎn)生早期的數(shù)據(jù)庫主要支持聯(lián)機(jī)事務(wù)處理決策支持對(duì)數(shù)據(jù)分析的需求傳統(tǒng)數(shù)據(jù)庫系統(tǒng)不適宜DSS事務(wù)處理和分析處理的性能特性不同數(shù)據(jù)集成問題數(shù)據(jù)動(dòng)態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題操作繁簡(jiǎn)問題(1)事務(wù)處理和分析處理的性能特性不同。所有聯(lián)機(jī)事務(wù)處理強(qiáng)調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性,并不關(guān)心數(shù)據(jù)查詢的方便與快捷。在事務(wù)處理環(huán)境中,用戶的行為特點(diǎn)是數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強(qiáng)調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。聯(lián)機(jī)分析和事務(wù)處理對(duì)系統(tǒng)的要求不同,同一個(gè)數(shù)據(jù)庫在理論上難以做到兩全,將具有如此不同處理性能的兩種應(yīng)用放在同一個(gè)環(huán)境中運(yùn)行顯然是不適當(dāng)?shù)摹#?)數(shù)據(jù)集成問題。DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當(dāng)前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務(wù)處理應(yīng)用分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(3)數(shù)據(jù)動(dòng)態(tài)集成問題。靜態(tài)集成的最大缺點(diǎn)在于,如果在數(shù)據(jù)集成后數(shù)據(jù)源中數(shù)據(jù)發(fā)生了變化,這些

變化將不能反映給決策者,導(dǎo)致決策者使用的是過時(shí)的數(shù)據(jù)。集成數(shù)據(jù)必須以一定的周期(例如24小時(shí))進(jìn)行刷新,我們稱其為動(dòng)態(tài)集成。顯然,事務(wù)處理系統(tǒng)不具備動(dòng)態(tài)集成的能力。(4)歷史數(shù)據(jù)問題。事務(wù)處理一般只需要當(dāng)前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲(chǔ)短期數(shù)據(jù),切不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對(duì)于決策分析而言,歷史數(shù)據(jù)是相當(dāng)重要的,許多分析方法必須一大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細(xì)分析,是難以把握企業(yè)的發(fā)展趨勢(shì)的。DSS對(duì)數(shù)據(jù)在空間和時(shí)間的廣度上都有了更高的要求,而事務(wù)處理環(huán)境難以滿足這些要求。(5)數(shù)據(jù)的綜合問題。在事務(wù)處理系統(tǒng)中積累了大量的細(xì)節(jié)數(shù)據(jù),一般而言,DSS并不對(duì)這些細(xì)節(jié)數(shù)據(jù)進(jìn)行分析。在分析前,往往需要對(duì)細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合。而事務(wù)處理系統(tǒng)不具備這種綜合能力,根據(jù)規(guī)范化理論,這種綜合還往往因?yàn)槭且环N數(shù)據(jù)冗余而加以限制。(6)操作繁簡(jiǎn)問題。業(yè)務(wù)數(shù)據(jù)的模式是針對(duì)事務(wù)處理系統(tǒng)而設(shè)計(jì)的,數(shù)據(jù)的格式和描述方式并不適合非計(jì)算機(jī)專業(yè)人員進(jìn)行業(yè)務(wù)上的分析和統(tǒng)計(jì)。有人感感嘆::20年前查查詢不不到數(shù)數(shù)據(jù)是是因?yàn)闉閿?shù)據(jù)據(jù)太少少了,,而今今天查查詢不不到數(shù)數(shù)據(jù)是是因?yàn)闉閿?shù)據(jù)據(jù)太多多了。。要提高高分析析和決決策的的效率率和有有效性性,分分析型型處理理及其其數(shù)據(jù)據(jù)必須須與操操作型型處理理及其其數(shù)據(jù)據(jù)相分分離。。必須須把分分析型型數(shù)據(jù)據(jù)從事事務(wù)處處理環(huán)環(huán)境中中提取取出來來,按按照DSS處理的的需要要進(jìn)行行重新新組織織,建建立單單獨(dú)的的分析析處理理環(huán)境境,數(shù)數(shù)據(jù)倉倉庫正正是為為了構(gòu)構(gòu)建這這種新新的分分析處處理環(huán)環(huán)境而而出現(xiàn)現(xiàn)的一一種數(shù)數(shù)據(jù)存存儲(chǔ)和和組織織技術(shù)術(shù)。數(shù)據(jù)倉倉庫的的數(shù)據(jù)據(jù)從聯(lián)聯(lián)機(jī)的的事務(wù)務(wù)處理理系統(tǒng)統(tǒng)、異異構(gòu)的的外部部數(shù)據(jù)據(jù)源、、脫機(jī)機(jī)的歷歷史業(yè)業(yè)務(wù)數(shù)數(shù)據(jù)中中得到到。它它是一一個(gè)聯(lián)聯(lián)機(jī)的的系統(tǒng)統(tǒng),專專門為為分析析統(tǒng)計(jì)計(jì)和決決策支支持應(yīng)應(yīng)用服服務(wù),,通過過它可可滿足足決策策支持持和聯(lián)聯(lián)機(jī)分分析應(yīng)應(yīng)用所所要求求的一一切。。數(shù)據(jù)倉倉庫的的概念念和特特征目前,,數(shù)據(jù)據(jù)倉庫庫一詞詞尚沒沒有一一個(gè)統(tǒng)統(tǒng)一的的定義義。著名的的數(shù)據(jù)據(jù)倉庫庫專家家在其著著作《BuildingtheDataWarehouse》》一書中中給予予如下下描述述:數(shù)據(jù)倉倉庫((DataWarehouse)是一一個(gè)面面向主主題的的(SubjectOriented)、集集成的的(Integrate)、相相對(duì)穩(wěn)穩(wěn)定的的(Non-Volatile)、反反映歷歷史變變化((TimeVariant)的數(shù)數(shù)據(jù)集集合,,用于于支持持管理理決策策。數(shù)據(jù)倉倉庫概概念的的兩個(gè)個(gè)層次次功能上上:數(shù)數(shù)據(jù)倉倉庫用用于支支持決決策,,面向向分析析型數(shù)數(shù)據(jù)處處理,,它不不同于于企業(yè)業(yè)現(xiàn)有有的操操作型型數(shù)據(jù)據(jù)庫;;內(nèi)容和和特征征上::數(shù)據(jù)據(jù)倉庫庫是對(duì)對(duì)多個(gè)個(gè)異構(gòu)構(gòu)的數(shù)數(shù)據(jù)源源有效效集成成,集集成后后按照照主題題進(jìn)行行了重重組,,并包包含歷歷史數(shù)數(shù)據(jù),,而且且存放放在數(shù)數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)一一般不不再修修改。。數(shù)據(jù)倉倉庫四四個(gè)特特點(diǎn)-面向主主題傳統(tǒng)的的數(shù)據(jù)據(jù)庫是是面向向應(yīng)用用而進(jìn)進(jìn)行數(shù)數(shù)據(jù)組組織的的,其其抽象象程度度不夠夠高,,沒有有完全全實(shí)現(xiàn)現(xiàn)數(shù)據(jù)據(jù)與應(yīng)應(yīng)用的的分離離。但但這種種方式式能較較好地地將企企業(yè)業(yè)業(yè)務(wù)活活動(dòng)與與數(shù)據(jù)據(jù)庫模模式相相對(duì)應(yīng)應(yīng),利利于從從手工工處理理向計(jì)計(jì)算機(jī)機(jī)處理理過渡渡,因因而具具有較較好的的可操操作性性;數(shù)數(shù)據(jù)倉倉庫是是面向向主題題而進(jìn)進(jìn)行數(shù)數(shù)據(jù)組組織的的。主主題是是一個(gè)個(gè)在較較高層層次上上對(duì)數(shù)數(shù)據(jù)的的抽象象,在在邏輯輯意義義上,,它是是對(duì)企企業(yè)中中某一一宏觀觀領(lǐng)域域所涉涉及的的分析析對(duì)象象,即即將數(shù)數(shù)據(jù)組組織成成主題題域。。例如如,在在銀行行經(jīng)營(yíng)營(yíng)運(yùn)作作中,,業(yè)務(wù)務(wù)(存款、、貸款款、匯匯兌)、貨幣幣、客客戶、、機(jī)構(gòu)構(gòu)、會(huì)會(huì)計(jì)科科目是是其主主要構(gòu)構(gòu)架或或方向向,因因此在在銀行行業(yè)務(wù)務(wù)數(shù)據(jù)據(jù)倉庫庫中,,選擇擇業(yè)務(wù)務(wù)、貨貨幣、、客戶戶、機(jī)機(jī)構(gòu)、、會(huì)計(jì)計(jì)科目目五個(gè)個(gè)主題題,并并將會(huì)會(huì)計(jì)科科目作作為連連接其其他四四個(gè)主主題的的交易易主題題進(jìn)行行處理理。面向主題可以以獨(dú)立于數(shù)據(jù)據(jù)處理邏輯,,適用于分析析型數(shù)據(jù)環(huán)境境,適用于建建設(shè)企業(yè)全局局?jǐn)?shù)據(jù)庫;數(shù)數(shù)據(jù)倉庫中目目前仍采用關(guān)關(guān)系數(shù)據(jù)庫技技術(shù)來實(shí)現(xiàn),,其面向主題題所作較高程程度上的抽象象,應(yīng)強(qiáng)調(diào)其其邏輯意義。。數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-集成的面向事務(wù)處理理的操作型數(shù)數(shù)據(jù)庫通常與與某些特定的的應(yīng)用相關(guān),,數(shù)據(jù)庫之間間相互獨(dú)立,,并且往往是是異構(gòu)的。在數(shù)據(jù)倉庫的所所有特性之中中,這是最重重要的。應(yīng)用用問題的設(shè)計(jì)計(jì)人員歷經(jīng)多多年制定出來來的不同的設(shè)設(shè)計(jì)決策有很很多很多種不不同的表示方方法,沒有什什么應(yīng)用在編編碼、命名習(xí)習(xí)慣、實(shí)際屬屬性、屬性度度量等方面是是一致的,各各個(gè)應(yīng)用問題題設(shè)計(jì)員自由由地做出他或或她自己的設(shè)設(shè)計(jì)決策。數(shù)據(jù)倉庫中的的數(shù)據(jù)是集成成的。而數(shù)據(jù)據(jù)倉庫中的數(shù)數(shù)據(jù)是在對(duì)原原有分散的數(shù)數(shù)據(jù)庫數(shù)據(jù)抽抽取、清理的的基礎(chǔ)上經(jīng)過過系統(tǒng)加工、、匯總和整理理得到的,必必須消除源數(shù)數(shù)據(jù)中的不一一致性,以保保證數(shù)據(jù)倉庫庫內(nèi)的信息是是關(guān)于整個(gè)企企業(yè)的一致的的全局信息。。在數(shù)據(jù)倉庫庫建設(shè)中,這這是最關(guān)鍵最最復(fù)雜的一個(gè)個(gè)步驟,主要要工作有:一一是,進(jìn)行數(shù)數(shù)據(jù)的綜合和和計(jì)算;二是是,統(tǒng)一源數(shù)數(shù)據(jù)中所有不不一致和矛盾盾的地方(如同名異義、、異名同義、、字長(zhǎng)不一致致、單位不一一致等)。數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-相對(duì)穩(wěn)定的操作型數(shù)據(jù)庫庫中的數(shù)據(jù)通通常實(shí)時(shí)更新新,數(shù)據(jù)根據(jù)據(jù)需要及時(shí)發(fā)發(fā)生變化。數(shù)數(shù)據(jù)倉庫的數(shù)數(shù)據(jù)主要供企企業(yè)決策分析析之用,所涉涉及的數(shù)據(jù)操操作主要是數(shù)數(shù)據(jù)查詢,一一旦某個(gè)數(shù)據(jù)據(jù)進(jìn)入數(shù)據(jù)倉倉庫以后,一一般情況下將將被長(zhǎng)期保留留,也就是數(shù)數(shù)據(jù)倉庫中一一般有大量的的查詢操作,,但修改和刪刪除操作很少少,通常只需需要定期的加加載、刷新。。數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-相對(duì)穩(wěn)定的數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-反映歷史變化化操作型數(shù)據(jù)庫庫主要關(guān)心當(dāng)當(dāng)前某一個(gè)時(shí)時(shí)間段內(nèi)的數(shù)數(shù)據(jù),而數(shù)據(jù)據(jù)倉庫中的數(shù)數(shù)據(jù)通常包含含歷史信息,,系統(tǒng)記錄了了企業(yè)從過去去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)數(shù)據(jù)倉庫的時(shí)時(shí)點(diǎn))到目前的各個(gè)個(gè)階段的信息息,通過這些些信息,可以以對(duì)企業(yè)的發(fā)發(fā)展歷程和未未來趨勢(shì)做出出定量分析和和預(yù)測(cè)。數(shù)據(jù)倉庫中的的數(shù)據(jù)時(shí)間期期限要遠(yuǎn)遠(yuǎn)長(zhǎng)長(zhǎng)于操作型系系統(tǒng)中的數(shù)據(jù)據(jù)時(shí)間期限。。操作型系統(tǒng)統(tǒng)的時(shí)間期限限一般是60~90天,而數(shù)據(jù)倉倉庫中數(shù)據(jù)的的時(shí)間期限通通常是5~10年。操作型數(shù)據(jù)庫庫含有“當(dāng)前前值”的數(shù)據(jù)據(jù),這些數(shù)據(jù)據(jù)的準(zhǔn)確性在在訪問時(shí)是有有效的,同樣樣當(dāng)前值的數(shù)數(shù)據(jù)能被更新新。而數(shù)據(jù)倉倉庫中的數(shù)據(jù)據(jù)僅僅是一系系列某一時(shí)刻刻生成的復(fù)雜雜的快照。操作型數(shù)據(jù)的的鍵碼結(jié)構(gòu)可可能包含也可可能不包含時(shí)時(shí)間元素,如如年、月、日日等。而數(shù)據(jù)據(jù)倉庫的鍵碼碼結(jié)構(gòu)總是包包含某時(shí)間元元素。數(shù)據(jù)倉倉庫的數(shù)據(jù)碼碼鍵都包含時(shí)時(shí)間項(xiàng),用作作標(biāo)明數(shù)據(jù)的的歷史時(shí)期。。數(shù)據(jù)倉庫中中的數(shù)據(jù)包含含有大量綜合合數(shù)據(jù),很多多與時(shí)間有關(guān)關(guān),如按時(shí)間間段進(jìn)行綜合合或隔時(shí)間片片進(jìn)行抽樣。。隨著時(shí)間變變化,數(shù)據(jù)倉倉庫需要不斷斷增加新數(shù)據(jù)據(jù)、刪去舊數(shù)數(shù)據(jù)。數(shù)據(jù)倉庫四個(gè)個(gè)特點(diǎn)-反映歷史變化化數(shù)據(jù)倉庫本質(zhì)質(zhì)數(shù)據(jù)倉庫實(shí)際際上是一個(gè)“以大型數(shù)據(jù)管管理信息系統(tǒng)統(tǒng)為基礎(chǔ)的、、附加在這個(gè)個(gè)數(shù)據(jù)庫系統(tǒng)統(tǒng)之上的、存存儲(chǔ)了從企業(yè)業(yè)所有業(yè)務(wù)數(shù)數(shù)據(jù)庫中獲取取的綜合數(shù)據(jù)據(jù)的、并能利利用這些綜合合數(shù)據(jù)為用戶戶提供經(jīng)過處處理后的有用用信息的應(yīng)用用系統(tǒng)”。如果說傳統(tǒng)數(shù)數(shù)據(jù)庫系統(tǒng)的的重點(diǎn)與要求求是快速、準(zhǔn)準(zhǔn)確、安全、、可靠地將數(shù)數(shù)據(jù)存進(jìn)數(shù)據(jù)據(jù)庫中的話,,那么數(shù)據(jù)倉倉庫的重點(diǎn)與與要求就是能能夠準(zhǔn)確、安安全、可靠地地從數(shù)據(jù)庫中中取出數(shù)據(jù),,經(jīng)過加工轉(zhuǎn)轉(zhuǎn)換成有規(guī)律律信息之后,,再供管理人人員進(jìn)行分析析使用。數(shù)據(jù)倉庫所要要研究和解決決的問題就是是從數(shù)據(jù)庫中中獲取信息。。數(shù)據(jù)倉庫的內(nèi)內(nèi)容數(shù)據(jù)倉庫并沒沒有嚴(yán)格的數(shù)數(shù)學(xué)理論基礎(chǔ)礎(chǔ),也沒有成成熟的基本模模式,且更偏偏向于工程,,具有強(qiáng)烈的的工程性。因因此,在技術(shù)術(shù)上人們習(xí)慣慣于從工作過過程等方面來來分析,并按按其關(guān)鍵技術(shù)術(shù)部份分為數(shù)數(shù)據(jù)的抽取、、存儲(chǔ)與管理理以及數(shù)據(jù)的的表現(xiàn)等三個(gè)個(gè)基本方面。。數(shù)據(jù)的抽取數(shù)據(jù)的抽取是是數(shù)據(jù)進(jìn)入倉倉庫的入口。。由于數(shù)據(jù)倉倉庫是一個(gè)獨(dú)獨(dú)立的數(shù)據(jù)環(huán)環(huán)境,它需要要通過抽取過過程將數(shù)據(jù)從從聯(lián)機(jī)事務(wù)處處理系統(tǒng)、外外部數(shù)據(jù)源、、脫機(jī)的數(shù)據(jù)據(jù)存儲(chǔ)介質(zhì)中中導(dǎo)入到數(shù)據(jù)據(jù)倉庫。數(shù)據(jù)據(jù)抽取在技術(shù)術(shù)上主要涉及及互連、復(fù)制制、增量、轉(zhuǎn)轉(zhuǎn)換、調(diào)度和和監(jiān)控等方面面。數(shù)據(jù)倉庫庫中的數(shù)據(jù)并并不要求與聯(lián)聯(lián)機(jī)事務(wù)處理理系統(tǒng)保持實(shí)實(shí)時(shí)同步,因因此數(shù)據(jù)抽取取可以定時(shí)進(jìn)進(jìn)行,但多個(gè)個(gè)抽取操作執(zhí)執(zhí)行的時(shí)間、、相互的順序序、成敗對(duì)數(shù)數(shù)據(jù)倉庫中信信息的有效性性則至關(guān)重要要。存儲(chǔ)和管理數(shù)據(jù)倉庫的真真正關(guān)鍵是數(shù)數(shù)據(jù)的存儲(chǔ)和和管理。數(shù)據(jù)據(jù)倉庫的組織織管理方式?jīng)Q決定了它有別別于傳統(tǒng)數(shù)據(jù)據(jù)庫,同時(shí)也也決定了其對(duì)對(duì)外部數(shù)據(jù)的的表現(xiàn)形式。。要決定采用用什么產(chǎn)品和和技術(shù)來建立立數(shù)據(jù)倉庫的的核心,則需需要從數(shù)據(jù)倉倉庫的技術(shù)特特點(diǎn)著手分析析。數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)實(shí)際際上相當(dāng)于數(shù)數(shù)據(jù)倉庫的門門面,其性能能主要集中在在多維分析、、數(shù)理統(tǒng)計(jì)和和數(shù)據(jù)挖掘方方面。而多維維分析又是數(shù)數(shù)據(jù)倉庫的重重要表現(xiàn)形式式,近幾年來來由于互聯(lián)網(wǎng)網(wǎng)的發(fā)展,使使得多維分析析領(lǐng)域的工具具和產(chǎn)品更加加注重提供基基于Web前端聯(lián)機(jī)分析析界面,而不不僅僅是在網(wǎng)網(wǎng)上發(fā)布數(shù)據(jù)據(jù)。數(shù)據(jù)倉庫系統(tǒng)統(tǒng)體系結(jié)構(gòu)數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)據(jù)倉庫系統(tǒng)的的基礎(chǔ),是整整個(gè)系統(tǒng)的數(shù)數(shù)據(jù)源泉。通通常包括企業(yè)業(yè)內(nèi)部信息和和外部信息。。內(nèi)部信息包包括各種業(yè)務(wù)務(wù)處理數(shù)據(jù)和和各類文檔數(shù)數(shù)據(jù)。外部信信息包括各類類法律法規(guī)、、市場(chǎng)信息和和競(jìng)爭(zhēng)對(duì)手的的信息等等。。數(shù)據(jù)的存儲(chǔ)與與管理數(shù)據(jù)的存儲(chǔ)與與管理是整個(gè)個(gè)數(shù)據(jù)倉庫系系統(tǒng)的核心。。數(shù)據(jù)倉庫的的真正關(guān)鍵是是數(shù)據(jù)的存儲(chǔ)儲(chǔ)和管理。數(shù)數(shù)據(jù)倉庫的組組織管理方式式?jīng)Q定了它有有別于傳統(tǒng)數(shù)數(shù)據(jù)庫,同時(shí)時(shí)也決定了其其對(duì)外部數(shù)據(jù)據(jù)的表現(xiàn)形式式。要決定采采用什么產(chǎn)品品和技術(shù)來建建立數(shù)據(jù)倉庫庫的核心,則則需要從數(shù)據(jù)據(jù)倉庫的技術(shù)術(shù)特點(diǎn)著手分分析。針對(duì)現(xiàn)現(xiàn)有各業(yè)務(wù)系系統(tǒng)的數(shù)據(jù),,進(jìn)行抽取、、清理,并有有效集成,按按照主題進(jìn)行行組織。數(shù)據(jù)據(jù)倉庫按照數(shù)數(shù)據(jù)的覆蓋范范圍可以分為為企業(yè)級(jí)數(shù)據(jù)據(jù)倉庫和部門門級(jí)數(shù)據(jù)倉庫庫(通常稱為為數(shù)據(jù)集市))。OLAP服務(wù)器OLAP服務(wù)器對(duì)分析析需要的數(shù)據(jù)據(jù)進(jìn)行有效集集成,按多維維模型予以組組織,以便進(jìn)進(jìn)行多角度、、多層次的分分析,并發(fā)現(xiàn)現(xiàn)趨勢(shì)。其具具體實(shí)現(xiàn)可以以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚聚合數(shù)據(jù)均存存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚聚合數(shù)據(jù)均存存放于多維數(shù)數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放放于RDBMS之中,聚合數(shù)數(shù)據(jù)存放于多多維數(shù)據(jù)庫中中。前端工具前端工具主要要包括各種報(bào)報(bào)表工具、查查詢工具、數(shù)數(shù)據(jù)分析工具具、數(shù)據(jù)挖掘掘工具以及各各種基于數(shù)據(jù)據(jù)倉庫或數(shù)據(jù)據(jù)集市的應(yīng)用用開發(fā)工具。。其中數(shù)據(jù)分分析工具主要要針對(duì)OLAP服務(wù)器,報(bào)表表工具、數(shù)據(jù)據(jù)挖掘工具主主要針對(duì)數(shù)據(jù)據(jù)倉庫。數(shù)據(jù)倉庫概述述小結(jié)數(shù)據(jù)倉庫的產(chǎn)產(chǎn)生數(shù)據(jù)倉庫概念念及特征數(shù)據(jù)倉庫的內(nèi)內(nèi)容數(shù)據(jù)倉庫系統(tǒng)統(tǒng)的體系結(jié)構(gòu)構(gòu)數(shù)據(jù)倉庫的項(xiàng)目實(shí)施數(shù)據(jù)倉庫系統(tǒng)統(tǒng)是一種解決決問題的過程程,而不是一一個(gè)可以買到到的現(xiàn)成產(chǎn)品品。不同企業(yè)業(yè)會(huì)有不同的的數(shù)據(jù)倉庫。。企業(yè)人員往往往不懂如何何建立和利用用數(shù)據(jù)倉庫,,發(fā)揮其決策策支持的作用用,而數(shù)據(jù)倉倉庫公司人員員又不懂業(yè)務(wù)務(wù),不知道建建立哪些決策策主題,從數(shù)數(shù)據(jù)源中抽取取哪些數(shù)據(jù)。。這需要雙方方互相溝通,,共同協(xié)商開開發(fā)數(shù)據(jù)倉庫庫,因此是一一個(gè)不斷往復(fù)復(fù)前進(jìn)的過程程。數(shù)據(jù)倉庫的建建設(shè)是一個(gè)系系統(tǒng)工程,是是一個(gè)不斷建建立、發(fā)展、、完善的過程程,通常需要要較長(zhǎng)的時(shí)間間。這就要求求各企業(yè)對(duì)整整個(gè)系統(tǒng)的建建設(shè)提出一個(gè)個(gè)全面、清晰晰的遠(yuǎn)景規(guī)劃劃及技術(shù)實(shí)施施藍(lán)圖,將整整個(gè)項(xiàng)目的實(shí)實(shí)施分成若干干個(gè)階段,以以“總體規(guī)劃劃、分步實(shí)施施、步步見效效”為原則,,不僅可迅速速從當(dāng)前投資資中獲得收益益,而且可以以在已有的基基礎(chǔ)上,結(jié)合合其他已有的的業(yè)務(wù)系統(tǒng),,逐步構(gòu)建起起完整、健壯壯的數(shù)據(jù)倉庫庫系統(tǒng)。數(shù)據(jù)倉庫的項(xiàng)目實(shí)施數(shù)據(jù)倉庫提供供了有效地存存取和管理大大量數(shù)據(jù)的理理想環(huán)境,而而數(shù)據(jù)倉庫系系統(tǒng)的建立是是一個(gè)由數(shù)據(jù)據(jù)驅(qū)動(dòng)、以技技術(shù)支撐并滿滿足應(yīng)用需求求的不斷增長(zhǎng)長(zhǎng)和完善的開開發(fā)過程。因因此數(shù)據(jù)倉庫庫的建立可以以從數(shù)據(jù)、技技術(shù)和應(yīng)用三三方面展開。。數(shù)據(jù)倉庫的項(xiàng)目實(shí)施項(xiàng)目計(jì)劃項(xiàng)目計(jì)劃是指指定義創(chuàng)建數(shù)數(shù)據(jù)倉庫的項(xiàng)項(xiàng)目目標(biāo)和確確定項(xiàng)目范圍圍,包括對(duì)項(xiàng)項(xiàng)目計(jì)劃的評(píng)評(píng)估和流程的的調(diào)整。數(shù)據(jù)據(jù)倉庫在構(gòu)建建之初應(yīng)明確確其主題,主主題是一個(gè)在在較高層次將將數(shù)據(jù)歸類的的標(biāo)準(zhǔn),每一一個(gè)主題對(duì)應(yīng)應(yīng)一個(gè)宏觀的的分析領(lǐng)域,,針對(duì)具體決決策需求可細(xì)細(xì)化為多個(gè)主主題表,具體體來說就是確確定決策涉及及的范圍和所所要解決的問問題。但是主主題的確定必必須建立在現(xiàn)現(xiàn)有聯(lián)機(jī)事務(wù)務(wù)處理(OLTP)系統(tǒng)基礎(chǔ)礎(chǔ)上,否則則按此主題題設(shè)計(jì)的數(shù)數(shù)據(jù)倉庫存存儲(chǔ)結(jié)構(gòu)將將成為一個(gè)個(gè)空殼,缺缺少可存儲(chǔ)儲(chǔ)的數(shù)據(jù)。。但一味注注重OLTP數(shù)據(jù)信息,,也將導(dǎo)致致迷失數(shù)據(jù)據(jù)提取方向向,偏離主主題。需要要在OLTP數(shù)據(jù)和主題題之間找到到一個(gè)“平衡點(diǎn)”,根據(jù)主題題的需要完完整地收集集數(shù)據(jù),這這樣構(gòu)建的的數(shù)據(jù)倉庫庫才能滿足足決策和分分析的需要要。確定范圍的的主要任務(wù)務(wù)包括了解解方向性分分析處理需需求,確定定信息需求求,確定數(shù)數(shù)據(jù)覆蓋范范圍。方向向性需求包包括:決策策類型、決決策者感興興趣的問題題(或?qū)ο笙螅┑取T谠诖_定范圍圍時(shí)應(yīng)該重重視的因素素是必須用用戶驅(qū)動(dòng)和和數(shù)據(jù)驅(qū)動(dòng)動(dòng)相結(jié)合,,同時(shí)可以以借鑒國(guó)內(nèi)內(nèi)外已有的的成功經(jīng)驗(yàn)驗(yàn)。業(yè)務(wù)需求分分析業(yè)務(wù)需求分分析是數(shù)據(jù)據(jù)倉庫中一一個(gè)很重要要的階段,,好的業(yè)務(wù)務(wù)需求分析析會(huì)使項(xiàng)目目成功的機(jī)機(jī)率大大增增加。分析析階段主要要包括兩個(gè)個(gè)方面的任任務(wù)是深入入了解數(shù)據(jù)據(jù)源和分析析數(shù)據(jù)倉庫庫系統(tǒng)所包包含的主題題域及其相相互之間的的關(guān)系。分分析階段必必須堅(jiān)持用用戶參與,,并且與原原有系統(tǒng)開開發(fā)或維護(hù)護(hù)人員進(jìn)行行深入的溝溝通。數(shù)據(jù)線數(shù)據(jù)線的實(shí)實(shí)施可以分分為模型設(shè)設(shè)計(jì)、物理理設(shè)計(jì)、數(shù)數(shù)據(jù)預(yù)處理理三個(gè)步驟驟,用以滿滿足對(duì)數(shù)據(jù)據(jù)的有效組組織和管理理。數(shù)據(jù)線-模型設(shè)計(jì)需求分析已已經(jīng)確定了了用戶業(yè)務(wù)務(wù)分析所需需要的數(shù)據(jù)據(jù)。模型設(shè)設(shè)計(jì)階段將將確定數(shù)據(jù)據(jù)倉庫系統(tǒng)統(tǒng)將來的藍(lán)藍(lán)圖。數(shù)據(jù)倉庫的的邏輯設(shè)計(jì)計(jì)一般采用用星型模型型和雪花模模型設(shè)計(jì)其其數(shù)據(jù)模型型。包括選選擇合適的的主題,確確定事實(shí)表表、相關(guān)的的維、屬性性和粒度劃劃分,設(shè)計(jì)計(jì)正確的表表結(jié)構(gòu)和主主鍵、外鍵鍵關(guān)系等。。模型設(shè)計(jì)主主要包括四四個(gè)基本步步驟:確定定合適的主主題、劃分分粒度層次次、設(shè)計(jì)維維表和設(shè)計(jì)計(jì)事實(shí)表。。數(shù)據(jù)線-模型設(shè)計(jì)ER圖數(shù)據(jù)線-模型設(shè)計(jì)三維透視圖圖數(shù)據(jù)線-模型設(shè)計(jì)ER圖中所示的的數(shù)據(jù)模型型中有四個(gè)個(gè)相互關(guān)聯(lián)聯(lián)的簡(jiǎn)單實(shí)實(shí)體。如果果數(shù)據(jù)庫設(shè)設(shè)計(jì)只需要要考慮數(shù)據(jù)據(jù)模型的話話,可以推推斷所有的的實(shí)體都是是平等關(guān)系系。換言之之,從數(shù)據(jù)據(jù)模型的設(shè)設(shè)計(jì)角度來來看,所有有的實(shí)體之之間的關(guān)系系是對(duì)等的的。僅僅從數(shù)據(jù)據(jù)模型的角角度來著手手設(shè)計(jì)數(shù)據(jù)據(jù)倉庫會(huì)產(chǎn)產(chǎn)生一種““平面”效效應(yīng)。實(shí)際際上,由于于種種原因因,數(shù)據(jù)倉倉庫的實(shí)體體絕不會(huì)是是相互對(duì)等等的。一些些實(shí)體,要要求有它們們自己的特特別處理。。為了明確為為什么從數(shù)數(shù)據(jù)模型的的角度看一一個(gè)組織中中的數(shù)據(jù)和和關(guān)系會(huì)發(fā)發(fā)生失真,,根據(jù)在數(shù)數(shù)據(jù)倉庫中中建立實(shí)體體時(shí)將載入入數(shù)據(jù)實(shí)體體的數(shù)據(jù)量量,我們來來考慮數(shù)據(jù)據(jù)倉庫中數(shù)數(shù)據(jù)的一種種三維透視視。三維透透視圖表明明了這種三三維透視。。代表供應(yīng)應(yīng)商、客戶戶、產(chǎn)品、、發(fā)貨的實(shí)實(shí)體被稀疏疏地載入,,而代表訂訂單的實(shí)體體則大量地地載入。將將會(huì)有大量量的數(shù)據(jù)載載入代表訂訂單實(shí)體的的表中,而而在代表別別的實(shí)體的的表中載入入的數(shù)據(jù)量量則相對(duì)較較少。由于于大量的數(shù)數(shù)據(jù)要載入入訂單實(shí)體體,因此需需要一種不不同的設(shè)計(jì)計(jì)處理方式式。數(shù)據(jù)線-模型設(shè)計(jì)用來管理數(shù)數(shù)據(jù)倉庫中中載入某個(gè)個(gè)實(shí)體的大大量數(shù)據(jù)的的設(shè)計(jì)結(jié)構(gòu)構(gòu)通常用““星型連接接”。首先確立主主題,訂單單是有大量量數(shù)據(jù)的重重要主題,,那么“訂訂單”位于于星型連接接的中央。。在其周圍分分別是“產(chǎn)產(chǎn)品”、““客戶”、、“供應(yīng)商商”和“發(fā)發(fā)貨”實(shí)體體。這些實(shí)實(shí)體僅僅會(huì)會(huì)產(chǎn)生不大大的數(shù)據(jù)量量。星型連接中中央的“訂訂單”被稱稱作是“事事實(shí)表”,,而其周圍圍的其他實(shí)實(shí)體—“產(chǎn)品”、““客戶”、、“供應(yīng)商商”和“發(fā)發(fā)貨”則被被稱為“維維表”。事實(shí)表包含含了“訂單單”獨(dú)有的的標(biāo)識(shí)數(shù)據(jù)據(jù),也包含含了訂單本本身的獨(dú)有有數(shù)據(jù)。事事實(shí)表還包包含了指向向其周圍的的表—維表的外鍵鍵。數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用用星型連接接的一個(gè)有有趣的方面面是,在很很多情況下下,文本數(shù)數(shù)據(jù)與數(shù)值值數(shù)據(jù)是分分離開的。。文本數(shù)據(jù)常常出現(xiàn)在維維表中,數(shù)數(shù)值數(shù)據(jù)常常出現(xiàn)在事事實(shí)表中,,這種劃分分似乎在所所有情況都都會(huì)發(fā)生。。數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)創(chuàng)建和使用用星型連接接的好處是是可以為決決策支持系系統(tǒng)的處理理優(yōu)化數(shù)據(jù)據(jù)。通過數(shù)數(shù)據(jù)預(yù)連接接和建立有有選擇的數(shù)數(shù)據(jù)冗余,,設(shè)計(jì)者為為訪問和分分析過程大大大簡(jiǎn)化了了數(shù)據(jù),這這正是數(shù)據(jù)據(jù)倉庫所需需要的。如果不是在在決策支持持系統(tǒng)數(shù)據(jù)據(jù)倉庫環(huán)境境中使用星星型連接,,則會(huì)有很很多的缺點(diǎn)點(diǎn)。在決策策支持系統(tǒng)統(tǒng)數(shù)據(jù)倉庫庫環(huán)境以外外,常有數(shù)數(shù)據(jù)更新,,而且數(shù)據(jù)據(jù)關(guān)系的管管理要在秒秒的一級(jí)上上進(jìn)行。在在這種情況況下星型連連接在創(chuàng)建建和維護(hù)上上就是很麻麻煩的數(shù)據(jù)據(jù)結(jié)構(gòu)。但但是由于數(shù)數(shù)據(jù)倉庫是是一個(gè)裝載載—訪問環(huán)境,,它包括很很多歷史數(shù)數(shù)據(jù),且有有大量的數(shù)數(shù)據(jù)要管理理,因此,,星型連接接的數(shù)據(jù)結(jié)結(jié)構(gòu)是十分分理想的。。數(shù)據(jù)線-模型設(shè)計(jì)雪花模型。雪花模型是是對(duì)星型模模型的擴(kuò)展展,每個(gè)維維表都可以以向外連接接到多個(gè)詳詳細(xì)類別表表。雪花模型對(duì)對(duì)星型模型型的維表進(jìn)進(jìn)一步層次次化,原有有的各維表表可能被擴(kuò)擴(kuò)展為小的的事實(shí)表,,形成一些些局部的““層次”區(qū)區(qū)域。在維維表上連接接對(duì)事實(shí)表表進(jìn)行詳細(xì)細(xì)描述的詳詳細(xì)類別表表,達(dá)到了了縮小事實(shí)實(shí)表,提高高查詢效率率的目的。。數(shù)據(jù)線-模型設(shè)計(jì)數(shù)據(jù)線-模型設(shè)計(jì)雪花模型的的優(yōu)點(diǎn)是::通過最大大限度的減減少數(shù)據(jù)存存儲(chǔ)量以及及聯(lián)合較小小的維表來來改善查詢?cè)冃阅堋Q┗P驮鲈黾恿擞脩魬舯仨毺幚砝淼谋頂?shù)量量,增加了了某些查詢?cè)兊膹?fù)雜性性,但這種種方式可以以使系統(tǒng)進(jìn)進(jìn)一步專業(yè)業(yè)化和實(shí)用用化,同時(shí)時(shí)降低了系系統(tǒng)的通用用程度。數(shù)據(jù)線-物理設(shè)計(jì)物理設(shè)計(jì)的的主要任務(wù)務(wù)是定義支支持模型設(shè)設(shè)計(jì)必需的的物理結(jié)構(gòu)構(gòu)。其過程程包括以下下三個(gè)方面面:1)確定物理理存儲(chǔ)結(jié)構(gòu)構(gòu);2)確定索引引策略;3)確定存儲(chǔ)儲(chǔ)分配。數(shù)據(jù)線-數(shù)據(jù)處理(1)數(shù)據(jù)預(yù)處處理。它是是數(shù)據(jù)倉庫庫設(shè)計(jì)工程程中非常重重要的過程程,它由三三個(gè)主要步步驟組成::抽取(Extraction)、轉(zhuǎn)換(Transformation)、加載(Load),簡(jiǎn)稱ETL。抽取過程程將會(huì)暴露露源系統(tǒng)中中數(shù)據(jù)的質(zhì)質(zhì)量問題。。由于數(shù)據(jù)據(jù)的質(zhì)量嚴(yán)嚴(yán)重影響著著數(shù)據(jù)倉庫庫的可信程程度,因此此在數(shù)據(jù)預(yù)預(yù)處理過程程中,需要要提高數(shù)據(jù)據(jù)質(zhì)量,讓讓數(shù)據(jù)倉庫庫使用真正正有效的數(shù)數(shù)據(jù)。目前前有很多工工具可以幫幫助用戶完完成數(shù)據(jù)抽抽取、轉(zhuǎn)換換和裝載工工作,但是是還有相當(dāng)當(dāng)一部分工工作是要手手工編程來來完成的。。根據(jù)元數(shù)數(shù)據(jù)庫中的的主題表定定義、數(shù)據(jù)據(jù)源定義、、數(shù)據(jù)抽取取規(guī)則定義義對(duì)異地異異構(gòu)數(shù)據(jù)源源(包括各各平臺(tái)的數(shù)數(shù)據(jù)庫、文文本文件、、HTML文件、知識(shí)識(shí)庫等)進(jìn)進(jìn)行清理、、轉(zhuǎn)換,對(duì)對(duì)數(shù)據(jù)進(jìn)行行重新組織織和加工,,裝載到數(shù)數(shù)據(jù)倉庫的的目標(biāo)庫中中。在組織織不同來源源的數(shù)據(jù)過過程中,先先將數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換成一種種中間模式式,再把它它移至臨時(shí)時(shí)工作區(qū)。。加工數(shù)據(jù)據(jù)是保證目目標(biāo)數(shù)據(jù)庫庫中數(shù)據(jù)的的完整性、、一致性。。例如,有有兩個(gè)數(shù)據(jù)據(jù)源存儲(chǔ)與與人員有關(guān)關(guān)的信息,,在定義數(shù)數(shù)據(jù)組成的的人員編碼碼類型時(shí),,可能一個(gè)個(gè)是字符型型,一個(gè)是是整型;在在定義人員員性別這一一屬性的類類型時(shí),一一個(gè)可能是是char(2),存儲(chǔ)儲(chǔ)的數(shù)據(jù)據(jù)值為“男”和“女”,而另一一個(gè)屬性性類型為為char(1),數(shù)據(jù)據(jù)值為“F”和“M”。這兩個(gè)個(gè)數(shù)據(jù)源源的值都都是正確確的,但但對(duì)于目目標(biāo)數(shù)據(jù)據(jù)來說,,必須加加工為一一種統(tǒng)一一的方法法來表示示該屬性性值,然然后交由由最終用用戶進(jìn)行行驗(yàn)證,,這樣才才能保證證數(shù)據(jù)的的質(zhì)量。。在數(shù)據(jù)據(jù)抽取過過程中,,必須在在最終用用戶的密密切配合合下,才才能實(shí)現(xiàn)現(xiàn)數(shù)據(jù)的的真正統(tǒng)統(tǒng)一。(2)數(shù)據(jù)使使用。(3)數(shù)據(jù)維維護(hù)。數(shù)數(shù)據(jù)倉庫庫規(guī)模一一般都很很大,從從建立之之初就要要保證它它的可管管理性,,一個(gè)企企業(yè)可能能建立幾幾個(gè)數(shù)據(jù)據(jù)倉庫或或數(shù)據(jù)集集市,但但他們可可共用一一個(gè)元數(shù)數(shù)據(jù)庫對(duì)對(duì)其進(jìn)行行管理。。首先從從元數(shù)據(jù)據(jù)庫查詢?cè)兯柙獢?shù)據(jù),,然后進(jìn)進(jìn)行數(shù)據(jù)據(jù)倉庫更更新作業(yè)業(yè),更新新結(jié)束后后,將更更新情況況記錄于于元數(shù)據(jù)據(jù)庫中。。當(dāng)數(shù)據(jù)據(jù)源的運(yùn)運(yùn)行環(huán)境境、結(jié)構(gòu)構(gòu)及目標(biāo)標(biāo)數(shù)據(jù)的的維護(hù)計(jì)計(jì)劃發(fā)生生變化時(shí)時(shí),需要要修改元元數(shù)據(jù)。。元數(shù)據(jù)據(jù)是數(shù)據(jù)據(jù)倉庫的的重要組組成部分分,元數(shù)數(shù)據(jù)的質(zhì)質(zhì)量決定定整個(gè)數(shù)數(shù)據(jù)倉庫庫的質(zhì)量量。技術(shù)線技術(shù)線的的實(shí)施分分為技術(shù)術(shù)選擇和和產(chǎn)品選選擇兩個(gè)個(gè)步驟。。如何采采用合理理有效的的技術(shù)是是實(shí)現(xiàn)一一個(gè)好的的數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)的基本本條件。。在數(shù)據(jù)倉倉庫建立立的過程程中會(huì)遇遇到一些些新的特特定的問問題,如如管理大大量數(shù)據(jù)據(jù)的需求求,如何何對(duì)數(shù)據(jù)據(jù)進(jìn)行快快速和方方便的訪訪問等。。為解決決這些問問題人們們采用了了新的技技術(shù)。技技術(shù)體系系選擇必必須從為為這些技技術(shù)建立立全局的的結(jié)構(gòu)框框架和視視角出發(fā)發(fā),選擇擇中需要要同時(shí)考考慮三個(gè)個(gè)因素::商業(yè)需需求、當(dāng)當(dāng)前的技技術(shù)環(huán)境境、計(jì)劃劃的策略略技術(shù)方方向。技術(shù)體系系確定以以后需要要選擇實(shí)實(shí)現(xiàn)數(shù)據(jù)據(jù)倉庫應(yīng)應(yīng)用的各各種產(chǎn)品品,包括括硬件平平臺(tái)、ETL工具、OLAP服務(wù)器、、數(shù)據(jù)展展現(xiàn)工具具等,并并進(jìn)行產(chǎn)產(chǎn)品的安安裝和測(cè)測(cè)試。現(xiàn)現(xiàn)在市場(chǎng)場(chǎng)上的數(shù)數(shù)據(jù)倉庫庫產(chǎn)品有有很多,,數(shù)據(jù)倉倉庫廠商商通常都都提出了了自己的的一系列列解決方方案,限限于篇幅幅,在這這里不再再展開,,而主要要著眼于于數(shù)據(jù)倉倉庫實(shí)現(xiàn)現(xiàn)的一些些關(guān)鍵技技術(shù),以以便對(duì)數(shù)數(shù)據(jù)倉庫庫的建立立有更深深層的理理解。應(yīng)用線應(yīng)用線的的實(shí)施分分為應(yīng)用用設(shè)計(jì)和和應(yīng)用開開發(fā)兩個(gè)個(gè)步驟。。數(shù)據(jù)倉倉庫的建建立最終終是為應(yīng)應(yīng)用服務(wù)務(wù)的,所所以需要要對(duì)應(yīng)用用進(jìn)行設(shè)設(shè)計(jì)和開開發(fā),以以更好地地滿足用用戶的需需要。數(shù)據(jù)倉庫庫的建立立是為滿滿足用戶戶的不同同查詢需需求服務(wù)務(wù)的,用用戶的需需求可能能是只訪訪問一些些預(yù)定義義的查詢?cè)儭⑸沙蓤?bào)表等等簡(jiǎn)單操操作,也也可能是是自己定定義復(fù)雜雜的查詢?cè)儯苯咏臃治鰯?shù)數(shù)據(jù)倉庫庫中存放放的各種種數(shù)據(jù)。。因此,,需要設(shè)設(shè)計(jì)合適適的應(yīng)用用工具,,為不同同的用戶戶提供友友好的用用戶界面面。應(yīng)用設(shè)計(jì)計(jì)和開發(fā)發(fā)的一個(gè)個(gè)有效辦辦法是針針對(duì)不同同的用戶戶需求,,設(shè)計(jì)和和實(shí)現(xiàn)標(biāo)標(biāo)準(zhǔn)的用用戶應(yīng)用用模板,,提供給給用戶高高效的接接入方式式。應(yīng)用設(shè)計(jì)計(jì)的任務(wù)務(wù)是設(shè)計(jì)計(jì)標(biāo)準(zhǔn)的的用戶應(yīng)應(yīng)用模板板。應(yīng)用用設(shè)計(jì)的的過程一一般包括括:確定定初始的的模板集集、設(shè)計(jì)計(jì)模板的的標(biāo)準(zhǔn)、、設(shè)計(jì)詳詳細(xì)模板板、最后后通過用用戶反饋饋進(jìn)行改改進(jìn)。應(yīng)應(yīng)用開發(fā)發(fā)是通過過應(yīng)用設(shè)設(shè)計(jì)說明明書,按按照標(biāo)準(zhǔn)準(zhǔn)的軟件件開發(fā)流流程,實(shí)實(shí)現(xiàn)模板板的設(shè)計(jì)計(jì)。應(yīng)用用開發(fā)的的一般過過程是選選擇實(shí)現(xiàn)現(xiàn)的方法法,然后后進(jìn)行模模板的實(shí)實(shí)現(xiàn)、測(cè)測(cè)試和數(shù)數(shù)據(jù)驗(yàn)證證,最后后是應(yīng)用用模板的的維護(hù)。。應(yīng)用是數(shù)數(shù)據(jù)倉庫庫建立的的最終目目的,對(duì)對(duì)于應(yīng)用用提出的的要求,,數(shù)據(jù)倉倉庫建立立過程中中是必須須加以充充分考慮慮的。系統(tǒng)運(yùn)行行維護(hù)數(shù)據(jù)倉庫庫建成后后就進(jìn)入入運(yùn)行維維護(hù),在在運(yùn)行中中要不斷斷驗(yàn)證評(píng)評(píng)價(jià)分析析設(shè)計(jì)是是否符合合用戶需需求,產(chǎn)產(chǎn)生出新新的分析析要求及及時(shí)反饋饋回需求求分析,,進(jìn)行系系統(tǒng)設(shè)計(jì)計(jì)的改進(jìn)進(jìn)。運(yùn)行行維護(hù)分分為目標(biāo)標(biāo)數(shù)據(jù)維維護(hù)和元元數(shù)據(jù)維維護(hù)兩方方面。目目標(biāo)數(shù)據(jù)據(jù)維護(hù)是是根據(jù)元元數(shù)據(jù)庫庫所定義義的更新新頻率、、更新數(shù)數(shù)據(jù)項(xiàng)等等更新計(jì)計(jì)劃任務(wù)務(wù)來刷新新數(shù)據(jù)倉倉庫,以以反映數(shù)數(shù)據(jù)源的的變化,,且對(duì)時(shí)時(shí)間相關(guān)關(guān)性進(jìn)行行處理。。更新操操作有兩兩種情況況,即在在倉庫的的原有數(shù)數(shù)據(jù)表中中進(jìn)行某某些數(shù)據(jù)據(jù)的更新新和產(chǎn)生生一個(gè)新新的時(shí)間間區(qū)間的的數(shù)據(jù),,因?yàn)閰R匯總數(shù)據(jù)據(jù)與數(shù)據(jù)據(jù)倉庫中中的許多多信息元元素有關(guān)關(guān)系,必必需完整整地匯總總,這樣樣才能保保證全體體信息的的一致性性。數(shù)據(jù)倉庫庫實(shí)施總的來說說,數(shù)據(jù)據(jù)倉庫的的實(shí)施是是為了建建立一個(gè)個(gè)良好的的數(shù)據(jù)組組織和管管理環(huán)境境,以滿滿足決策策支持的的需要。。數(shù)據(jù)倉倉庫包含含了數(shù)據(jù)據(jù)、技術(shù)術(shù)、應(yīng)用用三方面面的要求求,所以以只有把把良好的的數(shù)據(jù)模模型、合合理的技技術(shù)和準(zhǔn)準(zhǔn)確的應(yīng)應(yīng)用設(shè)計(jì)計(jì)結(jié)合起起來,形形成一套套有效的的方法,,才能建建立起一一個(gè)成功功的數(shù)據(jù)據(jù)倉庫。。數(shù)據(jù)倉庫庫系統(tǒng)的的設(shè)計(jì)是是一個(gè)動(dòng)動(dòng)態(tài)反饋饋和循環(huán)環(huán)的過程程,以上上只完成成了數(shù)據(jù)據(jù)倉庫建建立的一一個(gè)生命命周期。。在實(shí)際際建立的的過程中中,一方方面數(shù)據(jù)據(jù)倉庫的的數(shù)據(jù)內(nèi)內(nèi)容、結(jié)結(jié)構(gòu)、粒粒度和其其他物理理設(shè)計(jì)需需要根據(jù)據(jù)用戶的的反饋信信息不斷斷地調(diào)整整完善;;另一方方面,應(yīng)應(yīng)用環(huán)境境發(fā)生重重大變化化或者新新技術(shù)出出現(xiàn),都都有可能能導(dǎo)致用用戶的應(yīng)應(yīng)用需求求發(fā)生重重大變化化,使現(xiàn)現(xiàn)有系統(tǒng)統(tǒng)不能滿滿足用戶戶要求,,需要重重新設(shè)計(jì)計(jì)系統(tǒng),,開始一一個(gè)新的的生命周周期。因因此,數(shù)數(shù)據(jù)倉庫庫的建立立是運(yùn)用用一套有有效的數(shù)數(shù)據(jù)倉庫庫建立方方法不斷斷反復(fù)循循環(huán)的過過程。粒度問題題粒度問題題是設(shè)計(jì)計(jì)數(shù)據(jù)倉倉庫的一一個(gè)最重重要方面面。粒度是指指數(shù)據(jù)倉倉庫的數(shù)數(shù)據(jù)單位位中保存存數(shù)據(jù)的的細(xì)化或或綜合程程度的級(jí)級(jí)別。細(xì)細(xì)化程度度越高,,粒度級(jí)級(jí)就越小小;相反反,細(xì)化化程度越越低,粒粒度級(jí)就就越大。。在數(shù)據(jù)倉倉庫環(huán)境境中粒度度之所以以是主要要的設(shè)計(jì)計(jì)問題,,是因?yàn)闉樗钌钌畹赜绊戫懘娣旁谠跀?shù)據(jù)倉倉庫中的的數(shù)據(jù)量量的大小小,同時(shí)時(shí)影響數(shù)數(shù)據(jù)倉庫庫所能回回答的查查詢類型型。在數(shù)數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)量大大小與查查詢的詳詳細(xì)程度度之間要要作出權(quán)權(quán)衡。粒度級(jí)別低粒度級(jí),,每個(gè)活動(dòng)動(dòng)(如一次電話話)被詳細(xì)記錄錄下來。高粒度級(jí)。。數(shù)據(jù)代表表一位顧客客一個(gè)月的的綜合信息息,每位顧顧客一個(gè)月月只有一個(gè)個(gè)記錄。粒度級(jí)別比比較低粒度級(jí),,每個(gè)活動(dòng)動(dòng)(如一次電話話)被詳細(xì)記錄錄下來,數(shù)數(shù)據(jù)的格式式如圖所示示。到月底底每個(gè)顧客客平均有200條記錄(全月中每個(gè)個(gè)電話都記記錄一次),因而總共共需要40000個(gè)字節(jié)。高粒度級(jí)。。數(shù)據(jù)代表表一位顧客客一個(gè)月的的綜合信息息,每位顧顧客一個(gè)月月只有一個(gè)個(gè)記錄,這這樣的記錄錄大約只需需200個(gè)字節(jié)。顯顯然,如果果數(shù)據(jù)倉庫庫的空間很很有限的話話(數(shù)據(jù)量總是是數(shù)據(jù)倉庫庫中的首要要問題),用高粒度度級(jí)表示數(shù)數(shù)據(jù)將比用用低粒度級(jí)級(jí)表示數(shù)據(jù)據(jù)的效率要要高得多。。高粒度級(jí)級(jí)不僅只需需要少得多多的字節(jié)存存放數(shù)據(jù),,而且只需需要較少的的索引項(xiàng)。。然而數(shù)據(jù)據(jù)量大小和和原始空間間問題不是是僅有的應(yīng)應(yīng)考慮的問問題。為了了訪問大量量數(shù)據(jù),其其處理能力力的大小同同樣也是應(yīng)應(yīng)考慮的一一個(gè)因素。。粒度的權(quán)衡衡粒度的雙重重級(jí)別企業(yè)既需要要提高存儲(chǔ)儲(chǔ)與訪問數(shù)數(shù)據(jù)的效率率,又需要要非常詳細(xì)細(xì)地分析數(shù)數(shù)據(jù)的能力力。當(dāng)一個(gè)個(gè)企業(yè)或組組織的數(shù)據(jù)據(jù)倉庫中擁擁有大量數(shù)數(shù)據(jù)時(shí),在在數(shù)據(jù)倉庫庫的細(xì)節(jié)部部分考慮雙雙重(或多重)粒度級(jí)是很很有意義的的。企業(yè)業(yè)需需要要多多個(gè)個(gè)粒粒度度級(jí)級(jí)而而不不是是一一個(gè)個(gè)粒粒度度級(jí)級(jí)的的需需求求,,是是因因?yàn)闉榱A6榷燃?jí)級(jí)設(shè)設(shè)計(jì)計(jì)采采用用雙雙重重級(jí)級(jí)別別應(yīng)應(yīng)該該是是幾幾乎乎每每個(gè)個(gè)機(jī)機(jī)構(gòu)構(gòu)默默認(rèn)認(rèn)的的選選擇擇。。數(shù)據(jù)據(jù)倉倉庫庫包包括括兩兩種種類類型型的的數(shù)數(shù)據(jù)據(jù)::輕輕度度綜綜合合數(shù)數(shù)據(jù)據(jù)和和““真真實(shí)實(shí)檔檔案案””細(xì)細(xì)節(jié)節(jié)數(shù)數(shù)據(jù)據(jù)。。“真真實(shí)實(shí)檔檔案案””細(xì)細(xì)節(jié)節(jié)數(shù)數(shù)據(jù)據(jù)。。在在操操作作層層是是大大量量的的細(xì)細(xì)節(jié)節(jié)數(shù)數(shù)據(jù)據(jù),,其其中中大大部部分分細(xì)細(xì)節(jié)節(jié)是是為為了了滿滿足足結(jié)結(jié)帳帳系系統(tǒng)統(tǒng)的的需需求求。。多多達(dá)達(dá)30多天天的的細(xì)細(xì)節(jié)節(jié)存存放放在在這這種種操操作作層層中中。。輕度度綜綜合合數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)量量比比細(xì)細(xì)節(jié)節(jié)數(shù)數(shù)據(jù)據(jù)庫庫中中的的數(shù)數(shù)據(jù)據(jù)量量少少得得多多。。大部部分分DSS處理理是是針針對(duì)對(duì)被被壓壓縮縮的的、、存存取取效效率率高高的的輕輕度度綜綜合合級(jí)級(jí)數(shù)數(shù)據(jù)據(jù)進(jìn)進(jìn)行行的的。。如如果果什什么么時(shí)時(shí)候候需需要要分分析析更更低低的的細(xì)細(xì)節(jié)節(jié)級(jí)級(jí)(5%時(shí)間間或或更更少少的的可可能能),可可以以到到數(shù)數(shù)據(jù)據(jù)的的真真實(shí)實(shí)檔檔案案層層。。鑒于于費(fèi)費(fèi)用用、、效效率率、、訪訪問問便便利利和和能能夠夠回回答答任任何何可可以以回回答答的的查查詢?cè)兊牡哪苣芰αΓ瑪?shù)數(shù)據(jù)據(jù)雙雙重重粒粒度度級(jí)級(jí)是是大多多數(shù)數(shù)機(jī)機(jī)構(gòu)構(gòu)建建造造數(shù)數(shù)據(jù)據(jù)倉倉庫庫細(xì)細(xì)節(jié)節(jié)級(jí)級(jí)的的最最好好選選擇擇。。數(shù)據(jù)據(jù)倉倉庫庫中中的的數(shù)數(shù)據(jù)據(jù)組組織織簡(jiǎn)單單堆堆積積。。輪轉(zhuǎn)轉(zhuǎn)綜綜合合。。簡(jiǎn)單單直直接接。。連續(xù)續(xù)。。簡(jiǎn)單單堆堆積積結(jié)結(jié)構(gòu)構(gòu)數(shù)據(jù)據(jù)倉倉庫庫中中最最簡(jiǎn)簡(jiǎn)單單最最常常用用的的數(shù)數(shù)據(jù)據(jù)組組織織形形式式也也許許是是簡(jiǎn)簡(jiǎn)單單堆堆積積結(jié)結(jié)構(gòu)構(gòu)。。從操操作作型型環(huán)環(huán)境境中中取取出出每每天天的的事事務(wù)務(wù)處處理理,,然然后后綜綜合合成成數(shù)數(shù)據(jù)據(jù)倉倉庫庫記記錄錄,,這這個(gè)個(gè)綜綜合合可可根根據(jù)據(jù)顧顧客客、、帳帳目目或或者者任任何何組組織織到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的主主題題領(lǐng)領(lǐng)域域來來進(jìn)進(jìn)行行。。這這里里的的事事務(wù)務(wù)處處理理是是以以天天來來進(jìn)進(jìn)行行綜綜合合。。換換句句話話說說,,對(duì)對(duì)一一個(gè)個(gè)顧顧客客的的一一個(gè)個(gè)帳帳號(hào)號(hào)的的每每天天的的所所有有活活動(dòng)動(dòng)進(jìn)進(jìn)行行合合計(jì)計(jì),,并并在在一一天天一一天天的的基基礎(chǔ)礎(chǔ)上上輸輸入入數(shù)數(shù)據(jù)據(jù)倉倉庫庫。。輪轉(zhuǎn)轉(zhuǎn)綜綜合合數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)輪轉(zhuǎn)轉(zhuǎn)綜綜合合數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)。。數(shù)據(jù)據(jù)先先用用與與前前面面相相同同的的處處理理方方法法從從操操作作型型環(huán)環(huán)境境輸輸入入到到數(shù)數(shù)據(jù)據(jù)倉倉庫庫環(huán)環(huán)境境中中。。然后后定定期期進(jìn)進(jìn)行行輪輪轉(zhuǎn)轉(zhuǎn)綜綜合合。。第第一一周周的的七七天天中中的的活活動(dòng)動(dòng)被被逐逐一一綜綜合合到到七七個(gè)個(gè)每每日日相相應(yīng)應(yīng)的的位位置置,,到到第第八八天天,,將將七七個(gè)個(gè)每每日日位位置置的的數(shù)數(shù)據(jù)據(jù)加加到到一一起起,,并并放放入入第第一一周周的的數(shù)數(shù)據(jù)據(jù)位位置置中中。。然然后后,,第第八八天天的的每每日日總總計(jì)計(jì)加加到到第第一一個(gè)個(gè)每每日日數(shù)數(shù)據(jù)據(jù)位位置置。。月月底底將將每每周周位位置置的的數(shù)數(shù)據(jù)據(jù)加加到到一一起起,,并并放放入入第第一一個(gè)個(gè)每每月月相相應(yīng)應(yīng)的的數(shù)數(shù)據(jù)據(jù)位位置置處處,,然然后后每每周周數(shù)數(shù)據(jù)據(jù)位位置置清清零零。。到到了了年年底底,,將將每每月月位位置置數(shù)數(shù)據(jù)據(jù)加加到到一一起起,,放放入入第第一一個(gè)個(gè)年年度度相相應(yīng)應(yīng)的的數(shù)數(shù)據(jù)據(jù)位位置置處處,,然然后后每每月月數(shù)數(shù)據(jù)據(jù)位位置置清清零零。。輪轉(zhuǎn)轉(zhuǎn)綜綜合合數(shù)數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)簡(jiǎn)單單堆堆積積vs輪轉(zhuǎn)轉(zhuǎn)綜綜合合簡(jiǎn)單單直直接接文文件件數(shù)據(jù)據(jù)僅僅僅僅是是從從操操作作型型環(huán)環(huán)境境拖拖入入數(shù)數(shù)據(jù)據(jù)倉倉庫庫環(huán)環(huán)境境中中,,并并沒沒有有任任何何累累積積。。簡(jiǎn)單單直直接接文文件件不不是是在在每每天天的的基基礎(chǔ)礎(chǔ)上上組組織織的的,,而而是是以以較較長(zhǎng)長(zhǎng)時(shí)時(shí)間間為為單單位位的的,,比比如如一一個(gè)個(gè)星星期期或或一一個(gè)個(gè)月月。。簡(jiǎn)單單直直接接文文件件是是間間隔隔一一定定時(shí)時(shí)間間的的操操作作型型數(shù)數(shù)據(jù)據(jù)的的一一個(gè)個(gè)快快照照。。連續(xù)續(xù)文文件件依據(jù)據(jù)兩兩個(gè)個(gè)或或更更多多的的簡(jiǎn)簡(jiǎn)單單直直接接文文件件能能生生成成一一種種連連續(xù)續(xù)文文件件。。把把1月份份和和2月份份的的兩兩個(gè)個(gè)數(shù)數(shù)據(jù)據(jù)快快照照合合并并,,創(chuàng)創(chuàng)建建數(shù)數(shù)據(jù)據(jù)的的一一個(gè)個(gè)連連續(xù)續(xù)文文件件。。連連續(xù)續(xù)文文件件中中的的數(shù)數(shù)據(jù)據(jù)代代表表從從第第一一個(gè)個(gè)月月到到最最后后一一個(gè)個(gè)月月的的連連續(xù)續(xù)數(shù)數(shù)據(jù)據(jù)。。當(dāng)然然,,連連續(xù)續(xù)文文件件也也可可以以通通過過把把一一個(gè)個(gè)快快照照追追加加到到一一個(gè)個(gè)以以前前生生成成的的連連續(xù)續(xù)文文件件上上來來創(chuàng)創(chuàng)建建。。從直接文件創(chuàng)創(chuàng)建一個(gè)連續(xù)續(xù)文件簡(jiǎn)單直接文件件追加到連續(xù)續(xù)文件數(shù)據(jù)倉庫環(huán)境境中的元數(shù)據(jù)據(jù)元數(shù)據(jù)作為數(shù)數(shù)據(jù)的數(shù)據(jù),,可對(duì)數(shù)據(jù)倉倉庫中的各種種數(shù)據(jù)進(jìn)行詳詳細(xì)的描述與與說明,說明明每個(gè)數(shù)據(jù)的的上下文關(guān)系系,使每個(gè)數(shù)數(shù)據(jù)具有符合合現(xiàn)實(shí)的真實(shí)實(shí)含義,使最最終用戶了解解這些數(shù)據(jù)之之間的關(guān)系。。在數(shù)據(jù)倉庫環(huán)環(huán)境中的元數(shù)數(shù)據(jù)所扮演的的角色和在操操作型環(huán)境中中數(shù)據(jù)所扮演演的角色是不不同的。在操作型環(huán)境境中,元數(shù)據(jù)據(jù)幾乎被當(dāng)成成文檔來處理理并且降低到到同樣的重要要性級(jí)別。然然而,在數(shù)據(jù)據(jù)倉庫環(huán)境中中,元數(shù)據(jù)的的重要性提高高了。數(shù)據(jù)倉庫環(huán)境境中的元數(shù)據(jù)據(jù)操作型數(shù)據(jù)和和數(shù)據(jù)倉庫中中的數(shù)據(jù)服務(wù)務(wù)于兩類不同同的群體,操操作型數(shù)據(jù)由由IT專業(yè)人員使用用,許多年來來IT人員都是偶然然地使用元數(shù)數(shù)據(jù)。IT專業(yè)人員不僅僅懂計(jì)算機(jī),,而且由于學(xué)學(xué)歷背景和所所受的培訓(xùn),,他們會(huì)在系系統(tǒng)中找到他他們自己的方方法。然而,數(shù)據(jù)倉倉庫數(shù)據(jù)是給給DSS分析者用的。。DSS分析人員通常常首先是專業(yè)業(yè)人員,他們們通常沒有很很高的計(jì)算機(jī)機(jī)水平。為了了能夠有效地地使用數(shù)據(jù)倉倉庫環(huán)境,DSS分析人員員需要盡盡量多的的幫助,,而元數(shù)數(shù)據(jù)恰能能很好地地幫助他他們。另另外,在在DSS分析者計(jì)計(jì)劃該怎怎樣去做做信息型型/分析型處處理時(shí),,他們要要首先去去看元數(shù)數(shù)據(jù)。由由于所服服務(wù)的人人員的種種類不同同,以及及元數(shù)據(jù)據(jù)在每天天的工作作中所起起的作用用不同,,元數(shù)據(jù)據(jù)在數(shù)據(jù)據(jù)倉庫環(huán)環(huán)境中比比在操作作型環(huán)境境中重要要得多。。元數(shù)據(jù)的的類型-按類型分分類(1)關(guān)于基基本數(shù)據(jù)據(jù)的元數(shù)數(shù)據(jù)。基本數(shù)據(jù)據(jù):數(shù)據(jù)據(jù)源、DW、數(shù)據(jù)集集市、和和應(yīng)用成成序管理理的所有有數(shù)據(jù)。。基本數(shù)據(jù)據(jù)元數(shù)據(jù)據(jù):包括括定義、、結(jié)構(gòu)的的所有描描述。(2)用于數(shù)數(shù)據(jù)處理理的元數(shù)數(shù)據(jù)對(duì)數(shù)據(jù)裝裝載、更更新處理理、分析析處理、、管理方方面的信信息,如如數(shù)據(jù)抽抽取、轉(zhuǎn)轉(zhuǎn)換、聚聚合規(guī)則則等的描描述。(3)關(guān)于企企業(yè)的組組織結(jié)構(gòu)構(gòu)的元數(shù)數(shù)據(jù)包括與企企業(yè)相關(guān)關(guān)的管理理方面的的數(shù)據(jù)和和信息,,如用戶戶訪問DW、數(shù)據(jù)源源、數(shù)據(jù)據(jù)集市的的權(quán)限信信息等等等。元數(shù)據(jù)的的類型-按抽象級(jí)級(jí)別分類類(1)概念級(jí)級(jí):包括括業(yè)務(wù)的的全部描描述,如如定義主主要的業(yè)業(yè)務(wù)實(shí)體體、特征征及其相相互關(guān)系系。系統(tǒng)統(tǒng)的使用用方法,,已定義義的查詢?cè)儯晥D圖和現(xiàn)有有的應(yīng)用用等相關(guān)關(guān)的信息息。(2)邏輯級(jí)級(jí):包括括數(shù)據(jù)庫庫的關(guān)系系方案,,邏輯多多維模型型等一般般用偽碼碼或數(shù)學(xué)學(xué)語言描描述數(shù)據(jù)據(jù)抽取/轉(zhuǎn)換規(guī)則則等。(3)物理級(jí)級(jí):包括括業(yè)務(wù)規(guī)規(guī)則相應(yīng)應(yīng)的SQL代碼、關(guān)關(guān)系的索索引文件件、分析析應(yīng)用的的代碼。。元數(shù)據(jù)的的類型-按承擔(dān)任任務(wù)分類類靜態(tài)元數(shù)數(shù)據(jù)。靜靜態(tài)元數(shù)數(shù)據(jù)主要要與數(shù)據(jù)據(jù)結(jié)構(gòu)有有關(guān)。名稱類——用于為系系統(tǒng)提供供標(biāo)識(shí)時(shí)時(shí),區(qū)分分?jǐn)?shù)據(jù)的的符號(hào)。。描述類——對(duì)DW中的多種種數(shù)據(jù)元元素進(jìn)行行說明。。格式類——提供DW中數(shù)據(jù)的的表達(dá)規(guī)規(guī)則。數(shù)據(jù)類型型——DW中數(shù)據(jù)所所持有的的類型。。關(guān)系類——說明DW中多種數(shù)數(shù)據(jù)對(duì)像像之間的的關(guān)系,,例如客客戶與商商品之間間有購買買關(guān)系。。域類——用于說明明DW中數(shù)據(jù)的的有效值值范圍。。業(yè)務(wù)規(guī)則則類——用于說明明DW中數(shù)據(jù)在在業(yè)務(wù)處處理中所所要遵守守的規(guī)則則。例如如Customer_ID表示客戶戶的編號(hào)號(hào),開頭頭字母為為A表示集體體客戶,,B為個(gè)人客客戶。動(dòng)態(tài)元數(shù)數(shù)據(jù)。動(dòng)動(dòng)態(tài)態(tài)元數(shù)據(jù)據(jù)主要與與數(shù)據(jù)的的狀態(tài)與與使用方方法有關(guān)關(guān)。數(shù)據(jù)質(zhì)量量表——用于描述述數(shù)據(jù)倉倉庫中數(shù)數(shù)據(jù)的精精確度、、完整性性、一致致性和有有效性。。統(tǒng)計(jì)信息息類——統(tǒng)計(jì)數(shù)據(jù)據(jù)訪問的的用戶,,訪問時(shí)時(shí)間和訪訪問次數(shù)數(shù)。這些些統(tǒng)計(jì)信信息對(duì)于于數(shù)據(jù)倉倉庫性能能的提高高具有較較高的參參考價(jià)值值。狀態(tài)類——用于跟蹤蹤DW的運(yùn)行情情況,例例如,數(shù)數(shù)據(jù)最近近一次的的備份時(shí)時(shí)間,備備份所需需要的時(shí)時(shí)間,出出現(xiàn)的錯(cuò)錯(cuò)誤情況況等狀況況。這些些系統(tǒng)運(yùn)運(yùn)行中的的狀況有有助于DW管理人員員對(duì)DW性能的了了解。處理類——描述DW系統(tǒng)的使使用方法法和管理理的特性性,例如如數(shù)據(jù)的的使用方方法概括括數(shù)據(jù)的的概括公公式等。。元數(shù)據(jù)的的內(nèi)容數(shù)據(jù)源的的元數(shù)據(jù)據(jù)數(shù)據(jù)模型型的元數(shù)數(shù)據(jù)數(shù)據(jù)準(zhǔn)備備區(qū)元數(shù)數(shù)據(jù)DBMS元數(shù)據(jù)前臺(tái)元數(shù)數(shù)據(jù)元數(shù)據(jù)的的內(nèi)容-數(shù)據(jù)源的的元數(shù)據(jù)據(jù)每個(gè)來源源的所有有者描述述信息每個(gè)來源源的業(yè)務(wù)務(wù)描述信信息原始來源源的更新新頻率每個(gè)來源源使用的的法律約約束存取方法法、存取取權(quán)利、、特權(quán),,以及來來源的存存取口令令用來實(shí)現(xiàn)現(xiàn)抽取過過程的程程序代碼碼自動(dòng)抽取取工具設(shè)設(shè)置特定抽取取作業(yè)的的結(jié)果信信息,包包括抽取取時(shí)間、、抽取內(nèi)內(nèi)容以及及完成情情況元數(shù)據(jù)內(nèi)內(nèi)容-數(shù)據(jù)模型型的元數(shù)數(shù)據(jù)企業(yè)概念念模型DW數(shù)據(jù)模型型數(shù)據(jù)源到到目標(biāo)的的映射數(shù)據(jù)倉庫庫環(huán)境中中的元數(shù)數(shù)據(jù)從操作型型環(huán)境到到數(shù)據(jù)倉倉庫環(huán)境境的映射射需要數(shù)數(shù)據(jù)轉(zhuǎn)換換元數(shù)據(jù)據(jù),沒有有這種映映射,對(duì)對(duì)接口進(jìn)進(jìn)行控制制是非常常困難的的。元數(shù)據(jù)的的內(nèi)容-數(shù)據(jù)準(zhǔn)備備區(qū)元數(shù)數(shù)據(jù)(1)數(shù)據(jù)傳輸輸調(diào)度以以及特定定傳輸?shù)牡慕Y(jié)果(2)數(shù)據(jù)準(zhǔn)備備區(qū)文件件使用情情況(3)用于連接接來源、、刪除字字段、查查找屬性性的作業(yè)業(yè)規(guī)范(4)數(shù)據(jù)清洗洗規(guī)范(5)數(shù)據(jù)增強(qiáng)強(qiáng)和映射射轉(zhuǎn)換(6)DM所要求的的轉(zhuǎn)換((比如解解釋空值值的度量量值)(7)目標(biāo)模式式設(shè)計(jì)、、來源到到目標(biāo)系系統(tǒng)的數(shù)數(shù)據(jù)流,,目標(biāo)數(shù)數(shù)據(jù)的所所有者(8)聚集定義義、聚集集使用統(tǒng)統(tǒng)計(jì)、基基本表使使用統(tǒng)計(jì)計(jì)(9)數(shù)據(jù)來源源情況和和審核檢檢查記錄錄(該記記錄真正正來自何何地、何何時(shí))(10)數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換運(yùn)行行時(shí)間(11)數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換軟件件的版本本號(hào)(12)數(shù)據(jù)抽取取處理的業(yè)業(yè)務(wù)描述(13)有關(guān)抽取取文件、軟軟件以及元元數(shù)據(jù)的安安全性設(shè)置置(14)數(shù)據(jù)傳輸輸?shù)陌踩孕栽O(shè)置(15)數(shù)據(jù)準(zhǔn)備備區(qū)的存檔檔日志和恢恢復(fù)程序(16)數(shù)據(jù)準(zhǔn)備備區(qū)存檔的的安全性設(shè)設(shè)置元數(shù)據(jù)的內(nèi)內(nèi)容-DBMS元數(shù)據(jù)(1)分區(qū)設(shè)置(2)索引(3)DBMS層次的安全全性特權(quán)與與授權(quán)(4)視圖定義(5)存儲(chǔ)過程與與SQL管理腳本(6)DBMS備份狀態(tài)、、備份程序序以及備份份安全性數(shù)據(jù)倉庫環(huán)環(huán)境中的元元數(shù)據(jù)對(duì)于數(shù)據(jù)倉倉庫環(huán)境中中的元數(shù)據(jù)據(jù)需要細(xì)致致管理有另另外一個(gè)重重要原因,,倉庫中數(shù)數(shù)據(jù)會(huì)存在在一段很長(zhǎng)長(zhǎng)的時(shí)間—從5年到10年。而在5年到10年這么長(zhǎng)的的時(shí)間段內(nèi)內(nèi),數(shù)據(jù)倉倉庫改變它它的結(jié)構(gòu)是是很正常的的。換句話話說,一個(gè)個(gè)數(shù)據(jù)結(jié)構(gòu)構(gòu)能在5到10年內(nèi)保持不不變是很不不平常的。。那么,隨隨著時(shí)間的的流逝來跟跟蹤數(shù)據(jù)結(jié)結(jié)構(gòu)的變化化,則是數(shù)數(shù)據(jù)倉庫中中元數(shù)據(jù)很很自然的一一項(xiàng)任務(wù)。。數(shù)據(jù)倉庫環(huán)環(huán)境中的元元數(shù)據(jù)元數(shù)據(jù)的內(nèi)內(nèi)容-前臺(tái)元數(shù)據(jù)據(jù)(1)業(yè)務(wù)名稱和和有關(guān)列、、表以及分分組的描述述(2)現(xiàn)有的查詢?cè)兒秃蛨?bào)告告定義(3)連接規(guī)范工工具設(shè)置(4)打印工具規(guī)規(guī)范(5)最終用戶文檔檔(6)網(wǎng)絡(luò)安全性用用戶特權(quán)概況況(7)網(wǎng)絡(luò)安全性身身份驗(yàn)證證書書(8)網(wǎng)絡(luò)安全性使使用統(tǒng)計(jì),包包括登錄嘗試試、存取嘗試試以及按位置置報(bào)告的用戶戶標(biāo)識(shí)符(9)個(gè)人用戶概況況(10)有關(guān)數(shù)據(jù)據(jù)源、表、視視圖以及報(bào)告告的使用及存存取映射元數(shù)據(jù)在數(shù)據(jù)據(jù)倉庫中的作作用元數(shù)據(jù)實(shí)際上上是要解決人人在何時(shí)、何何地、何因、、如何使用DW的問題。⑴為數(shù)據(jù)倉倉庫服務(wù)與DSS分析員機(jī)高層層決策人員服服務(wù)提供便利利。DW元數(shù)據(jù)的廣義義索引中存有有每次數(shù)據(jù)裝裝載時(shí)產(chǎn)生的的有關(guān)決策的的數(shù)據(jù),在做做決策時(shí),可可以先查詢?cè)撛摬糠謹(jǐn)?shù)據(jù),,再?zèng)Q定是否否進(jìn)行進(jìn)一步步的搜索。⑵解決操作作型環(huán)境和DW的復(fù)雜關(guān)系。。從OLTP到DW的轉(zhuǎn)換是復(fù)雜雜的多方面的的。元數(shù)據(jù)應(yīng)應(yīng)包括對(duì)這種種轉(zhuǎn)換的描述述。并清晰的的表示出來,,管理起來。。既保證這種種轉(zhuǎn)換是正確確的、合理的的,又要使其其是可變的。。靈活的。元數(shù)據(jù)在數(shù)據(jù)據(jù)倉庫中的作作用元數(shù)據(jù)在數(shù)據(jù)據(jù)倉庫開發(fā)期期間的使用。。數(shù)據(jù)倉庫的開開發(fā)過程是一一個(gè)構(gòu)造工程程的過程,必必須提供清晰晰的文檔。這個(gè)過程產(chǎn)生生的元數(shù)據(jù)主主要用于DW的應(yīng)用管理目目的。描述DW目錄表的每個(gè)個(gè)運(yùn)作的模式式,還須捕獲獲用于數(shù)據(jù)的的轉(zhuǎn)化、凈化化、轉(zhuǎn)移、概概括和聚集的的商業(yè)規(guī)則與與處理規(guī)則。。元數(shù)據(jù)在數(shù)據(jù)據(jù)倉庫中的作作用元數(shù)據(jù)在數(shù)據(jù)據(jù)源抽取中的的作用。元數(shù)數(shù)據(jù)對(duì)多個(gè)來來源的數(shù)據(jù)集集成發(fā)揮著關(guān)關(guān)鍵作用。⑴資源領(lǐng)域域的確定。利利用元數(shù)據(jù)可可以確定將數(shù)數(shù)據(jù)元的哪些些資源加載到到DW中。⑵跟蹤歷史史數(shù)據(jù)結(jié)構(gòu)變變化過程。⑶屬性到屬屬性的映射。。⑷屬性轉(zhuǎn)換換。元數(shù)據(jù)在數(shù)據(jù)據(jù)倉庫中的作作用元數(shù)據(jù)在數(shù)據(jù)據(jù)求精與重構(gòu)構(gòu)工程上的應(yīng)應(yīng)用。數(shù)據(jù)求精與重重構(gòu)工程負(fù)責(zé)責(zé)凈化資源中中的數(shù)據(jù)、增增加資源戳和和時(shí)間戳,將將數(shù)據(jù)轉(zhuǎn)換為為符合數(shù)據(jù)倉倉庫的數(shù)據(jù)格格式,預(yù)算概概括和衍生數(shù)數(shù)據(jù)的值。數(shù)據(jù)倉庫主要要應(yīng)用數(shù)據(jù)倉庫直接接訪問使用瀏覽分析析工具在DW中尋找有用的的信息。數(shù)據(jù)倉庫系統(tǒng)統(tǒng)支持在DW上的應(yīng)用,形形成決策支持持系統(tǒng)(DSS)。數(shù)據(jù)倉庫主要要應(yīng)用在證券業(yè)的應(yīng)應(yīng)用:可處理客戶分分析、帳戶分分析、證券交交易數(shù)據(jù)分析析、非資金交交易分析等多多個(gè)業(yè)界關(guān)心心的主題,為為客戶提供針針對(duì)其個(gè)人習(xí)習(xí)慣、投資組組合的投資建建議,從而真真正作到對(duì)客客戶的貼心服服務(wù)。在銀行領(lǐng)域的的應(yīng)用:防范銀行的經(jīng)經(jīng)營(yíng)風(fēng)險(xiǎn)、實(shí)實(shí)現(xiàn)科學(xué)管理理以及進(jìn)行決決策.在稅務(wù)領(lǐng)域的的應(yīng)用:可以以解決三個(gè)方方面的問題::一是查出應(yīng)應(yīng)稅未報(bào)者和和瞞稅漏稅者者,并對(duì)其進(jìn)進(jìn)行跟蹤;二二是對(duì)不同行行業(yè)、產(chǎn)品和和市場(chǎng)中納稅稅人的行為特特性進(jìn)行描述述,找出普遍遍規(guī)律,謀求求因勢(shì)利導(dǎo)的的稅務(wù)征稽策策略;三是對(duì)對(duì)不同行業(yè)、、產(chǎn)品和市場(chǎng)場(chǎng)應(yīng)收稅款進(jìn)進(jìn)行預(yù)測(cè),制制定最有效的的征收計(jì)劃。。在保險(xiǎn)業(yè)的應(yīng)應(yīng)用:滿足保險(xiǎn)行業(yè)業(yè)日益增長(zhǎng)的的各種查詢、、統(tǒng)計(jì)、報(bào)表表以及分析的的需求,提高高防范和化解解經(jīng)營(yíng)風(fēng)險(xiǎn)的的能力,有效效利用這些數(shù)數(shù)據(jù)來實(shí)現(xiàn)經(jīng)經(jīng)營(yíng)目標(biāo),預(yù)預(yù)測(cè)保險(xiǎn)業(yè)的的發(fā)展趨勢(shì),,甚至利用這這些數(shù)據(jù)來設(shè)設(shè)計(jì)保險(xiǎn)企業(yè)業(yè)的發(fā)展宏圖圖,在激烈的的競(jìng)爭(zhēng)中贏得得先機(jī).在客戶服務(wù)及及營(yíng)銷方面的的應(yīng)用:CRM在保健領(lǐng)域的的應(yīng)用:揭示出如何以以較低費(fèi)用獲獲取較高質(zhì)量量的治療策略略趨勢(shì)和模式式.聯(lián)機(jī)分析處理理(OLAP)聯(lián)機(jī)分析處理理(OLAP)的概念最早早是由關(guān)系數(shù)數(shù)據(jù)庫之父于1993年提出的。當(dāng)當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)務(wù)處理(OLTP)已不能滿足足終端用戶對(duì)對(duì)數(shù)據(jù)庫查詢?cè)兎治龅男枰琒QL對(duì)大量數(shù)據(jù)庫庫進(jìn)行的簡(jiǎn)單單查詢也不能能滿足用戶分分析的需求。。用戶的決策策分析需要對(duì)對(duì)關(guān)系數(shù)據(jù)庫庫進(jìn)行大量計(jì)計(jì)算才能得到到結(jié)果,而查查詢的結(jié)果并并不能滿足決決策者提出的的需求。因此此Codd提出了多維數(shù)數(shù)據(jù)分析的概概念即OLAP。聯(lián)機(jī)分析處理理(OLAP)OLAP是一種軟件技技術(shù),他使分分析人員能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論