數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件14_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件14_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件14_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件14_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課件14_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第3章

聯(lián)機(jī)分析處理(2)1第3章13.4OALP的多維數(shù)據(jù)分析(下)3.4.3廣義OLAP功能3.4.4數(shù)據(jù)立方體3.4.5多維數(shù)據(jù)分析的MDX語言及其應(yīng)用23.4OALP的多維數(shù)據(jù)分析(下)23.4.3廣義OLAP功能

1、基本代理操作

當(dāng)系統(tǒng)處于某種特殊狀態(tài)時(shí)“代理”提醒分析員。

(1)示警報(bào)告定義一些條件,一但條件滿足,系統(tǒng)會提醒分析員去做分析。如每日報(bào)告完成或月定貨完成等通知分析員作分析。(2)時(shí)間報(bào)告

按日歷和時(shí)鐘提醒分析員。

(3)異常報(bào)告當(dāng)超出邊界條件時(shí)提醒分析員。如銷售情況已超出預(yù)定義閾值的上限或下限時(shí)提醒分析員。33.4.3廣義OLAP功能1、基本代理操作32.?dāng)?shù)據(jù)分析模型(1)絕對模型通過比較歷史數(shù)據(jù)值或行為來描述過去發(fā)生的事實(shí)。絕對模型只能對歷史數(shù)據(jù)進(jìn)行比較,并且利用回歸分析等一些分析方法得出趨勢信息。42.?dāng)?shù)據(jù)分析模型(1)絕對模型4(2)解釋模型利用系統(tǒng)已有的多層次的綜合路徑層層細(xì)化,找出事實(shí)發(fā)生的原因。

假設(shè)今年銷售量下降,那么解釋模型應(yīng)當(dāng)能找出原因,即下滑與時(shí)間、地區(qū)、商品及銷售渠道四者中的何種因素有關(guān)。5(2)解釋模型利用系統(tǒng)已有的多層次的綜合路徑層層細(xì)化,找出事(3)思考模型說明在一維或多維上引入一組具體變量或參數(shù)后將會發(fā)生什么。例如該公司決策者為了了解某商品的銷售量是否與顧客的年齡有關(guān),引入了行變量-年齡,即在當(dāng)前的多維視圖上增加了顧客的年齡維。6(3)思考模型說明在一維或多維上引入一組具體變量或參數(shù)后將會(4)公式模型該模型表示在多個(gè)維上,需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。公式模型自動完成上述變量引入工作,從而最終找出與銷量有關(guān)的全部因素,并給出了引入后的結(jié)果。7(4)公式模型該模型表示在多個(gè)維上,需要引入哪些變量或參數(shù),3.商業(yè)分析模型(1)分銷渠道的分析模型(2)客戶利潤貢獻(xiàn)度模型(3)客戶關(guān)系(信用)優(yōu)化模型(4)風(fēng)險(xiǎn)評估模型83.商業(yè)分析模型(1)分銷渠道的分析模型8(1)分銷渠道的分析模型通過客戶、渠道、產(chǎn)品或服務(wù)三者之間的關(guān)系,了解客戶的購買行為、客戶和渠道對業(yè)務(wù)收入的貢獻(xiàn)、哪些客戶比較喜好由什么渠道在何時(shí)和銀行打交道。為此,銀行需要建立客戶購買傾向模型和渠道喜好模型等。9(1)分銷渠道的分析模型通過客戶、渠道、產(chǎn)品或服務(wù)三者之間的(2)客戶利潤貢獻(xiàn)度模型通過該模型能了解每一位客戶對銀行的總利潤貢獻(xiàn)度。知道哪些利潤高的客戶需要留住,采用什么方法留住客戶,交叉銷售改善客戶的利潤貢獻(xiàn)度,哪些客戶應(yīng)該爭取,完成個(gè)性化服務(wù)。10(2)客戶利潤貢獻(xiàn)度模型通過該模型能了解每一位客戶對銀行的總(3)客戶關(guān)系(信用)優(yōu)化模型銀行對客戶的每一筆交易中,知道客戶需要什么產(chǎn)品或服務(wù),例如,定期存款是希望退休養(yǎng)老使用,申請信用卡需要現(xiàn)金消費(fèi),詢問放貸利息需要住房貸款等。通過模型計(jì)算,主動地對客戶溝通并進(jìn)行交叉銷售,達(dá)到留住客戶和增加利潤的目標(biāo)。11(3)客戶關(guān)系(信用)優(yōu)化模型銀行對客戶的每一筆交易中,知道(4)風(fēng)險(xiǎn)評估模型模擬風(fēng)險(xiǎn)和利潤間的關(guān)系,建立風(fēng)險(xiǎn)評估的數(shù)學(xué)模型:

在滿足高利潤、低風(fēng)險(xiǎn)客戶需求的前提下,達(dá)到銀行收益的極大化。12(4)風(fēng)險(xiǎn)評估模型模擬風(fēng)險(xiǎn)和利潤間的關(guān)系,建立3.4.4數(shù)據(jù)立方體1.概述1996年,JimGray等首次提出了數(shù)據(jù)立方體(DataCube)的概念。

數(shù)據(jù)立方體就是數(shù)據(jù)倉庫結(jié)構(gòu)圖(圖2.1)中的綜合數(shù)據(jù)層(輕度和高度)。基于數(shù)據(jù)立方體的生成方法一直是OLAP和數(shù)據(jù)倉庫領(lǐng)域研究者所關(guān)注的熱點(diǎn)問題。133.4.4數(shù)據(jù)立方體1.概述13對于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過程。在數(shù)據(jù)立方體中,不同維度組合構(gòu)成了不同的子立方體。不同維值的組合及其對應(yīng)的度量值構(gòu)成了不同的查詢和分析。數(shù)據(jù)立方體的構(gòu)建和維護(hù)等計(jì)算方法成為了多維數(shù)據(jù)分析研究的關(guān)鍵問題。14對于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過OLAP和數(shù)據(jù)倉庫通常預(yù)先計(jì)算好不同細(xì)節(jié)層次和不同維屬性集合上的聚集,并把聚集的結(jié)果存儲到物理磁盤上(稱為物化)。把所有可能的聚集(即全聚集)都計(jì)算出來,可以得到最快的系統(tǒng)查詢響應(yīng)時(shí)間,15OLAP和數(shù)據(jù)倉庫通常預(yù)先計(jì)算好不同細(xì)節(jié)層次和不同維屬性集合數(shù)據(jù)立方體是在所有可能組合的維上進(jìn)行分組聚集運(yùn)算(groupby操作)的總和。聚集函數(shù)有:sum()、count()、average()等。數(shù)據(jù)立方體中的每一個(gè)元組(立方體的度量屬性)被稱為該立方體的上個(gè)格(cell),每個(gè)格在n個(gè)維屬性上有相應(yīng)的值。在未參與groupby操作的維屬性上具有All值(用﹡表示),而在參與groupby操作的維屬性具有非All值。16數(shù)據(jù)立方體是在所有可能組合的維上進(jìn)行分組聚集運(yùn)算(group例如,對于一個(gè)具有三個(gè)維屬性A、B、C和一個(gè)度量屬性M的數(shù)據(jù)集R(A,B,C,M).其對應(yīng)的數(shù)據(jù)立方體是在維屬性集{},{A},{B},{C},{AB},{AC},{BC},{ABC}上分別對度量屬性進(jìn)行聚集操作后的并集。其中:{}表示進(jìn)行聚集運(yùn)算{*,*,*,聚集函數(shù)(M)};{A}表示進(jìn)行聚集運(yùn)算{A,*,*,聚集函數(shù)(M)}等。17例如,對于一個(gè)具有三個(gè)維屬性A、B、C和一個(gè)度量屬性M這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉庫中的一種高度綜合級數(shù)據(jù).實(shí)質(zhì)上是進(jìn)行了數(shù)據(jù)的濃縮(壓縮),也可稱為泛化。最終所獲得的這些數(shù)據(jù)立方體可用于決策支持、知識發(fā)現(xiàn),或其它許多應(yīng)用。18這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉庫中的一種高度綜合級數(shù)據(jù).18例如,對如表3.12所示的超市的基本數(shù)據(jù)集POS(product,type,counter,price),前三個(gè)屬性分別代表(產(chǎn)品名、類型、柜臺)為維屬性.

現(xiàn)在對度量屬性價(jià)格price進(jìn)行取平均值(average)的聚集運(yùn)算,通過Cube操作可以得到一個(gè)具有三個(gè)維屬性和一個(gè)度量屬性的數(shù)據(jù)立方體Dpos,如表3.13所示。19例如,對如表3.12所示的超市的基本數(shù)據(jù)集POS(prod表3.12基本數(shù)據(jù)集POS

product type counter price KONKA TVSET 011000TCL TVSET 011500NOKIA PHONE 01200020表3.12基本數(shù)據(jù)集POS KONKA TVSET product type counter M(AVG(price))﹡

﹡1500KONKA ﹡

﹡1000TCL

﹡1500NOKIA

﹡2000﹡

TVSET ﹡1250﹡PHONE﹡2000﹡

﹡011500KONKA TVSET ﹡1000TCL TVSET ﹡1500NOKIAPHONE﹡2000﹡TVSET 011250﹡PHONE 012000KONKA ﹡011000TCL ﹡011500NOKIA﹡012000KONKATVSET 011000TCL TVSET 011500NOKIAPHONE 01200021﹡ ﹡ ﹡1500KONKA ﹡ ﹡1000TCL ﹡全聚集的數(shù)據(jù)占據(jù)的空間是原始數(shù)據(jù)空間的數(shù)百倍,花費(fèi)很長時(shí)間。故數(shù)據(jù)立方體構(gòu)建部分物化:即按照一定的規(guī)則選擇數(shù)據(jù)立方體的一個(gè)子集進(jìn)行預(yù)先計(jì)算。這種選擇是存儲空間和響應(yīng)時(shí)間的一種折衷。22全聚集的數(shù)據(jù)占據(jù)的空間是原始數(shù)據(jù)空間的數(shù)百倍,花費(fèi)很長時(shí)間。典型的壓縮型數(shù)據(jù)立方體,包括:冰山立方體、緊湊數(shù)據(jù)立方體、外殼片段立方體等。隨著流式數(shù)據(jù)處理技術(shù)的發(fā)展,流立方體生成方法越來越受到領(lǐng)域研究者的關(guān)注。23典型的壓縮型數(shù)據(jù)立方體,包括:23(1)冰山立方體在冰山立方體的生成計(jì)算中,僅聚集高于(或低于)某個(gè)閾值的子立方體。數(shù)據(jù)立方體的空間多數(shù),被低(或高)度量值的數(shù)據(jù)單元所占據(jù),而這些數(shù)據(jù)單元往往是分析者很少關(guān)心的內(nèi)容。這種方法的優(yōu)點(diǎn)是能夠減少構(gòu)建數(shù)據(jù)單元所占用的存儲空間。24(1)冰山立方體24例如,在表3.12中,設(shè)定聚集運(yùn)算條件:M(AVG(price))

≤1250,其冰山立方體為表3.14所示。表3.14

基本數(shù)據(jù)集POS的冰山立方體

product type counter M(AVG(price))KONKA ﹡

﹡1000﹡

TVSET ﹡1250KONKA TVSET ﹡1000﹡TVSET 011250KONKA ﹡011000KONKATVSET 01100025例如,在表3.12中,設(shè)定聚集運(yùn)算條件:M(AVG(pric(2)緊湊數(shù)據(jù)立方體生成方法緊湊數(shù)據(jù)立方體生成方法的一個(gè)重要特點(diǎn)是能夠保持?jǐn)?shù)據(jù)立方體的鉆取操作的語義。這種緊湊數(shù)據(jù)立方體生成方法在壓縮的方式和表現(xiàn)形式上表現(xiàn)出有不同的特征,包括:濃縮立方體(Condensedcube)、商立方體(Quotientcube)等,這些都是近年來出現(xiàn)的一系列新型的數(shù)據(jù)立方體的存儲結(jié)構(gòu)。26(2)緊湊數(shù)據(jù)立方體生成方法緊湊數(shù)據(jù)立方體生成方法的一個(gè)重要濃縮立方體濃縮立方體計(jì)算方法的基本原理是,在某些屬性或組合下的一個(gè)元組相對于其它元組具有唯一性,則稱為基本單一元組(BST,BaseSingleTuple)。當(dāng)它的超集(增加屬性組合)也是BST,且都是取同一度量值,在聚集運(yùn)算時(shí),可以把這些屬性的度量值對應(yīng)的元組壓縮成一條元組存儲。27濃縮立方體濃縮立方體計(jì)算方法的基本原理是,在某些屬性或組合下屬性{product}的所有超集{product,type},{product,counter},{product,type,counter }也是BST,且都具有相同值。如{KONKA,﹡,﹡,1000},{KONKA,TVSET,﹡,1000},{KONKA,﹡,01,1000},{KONKA,TVSET,01,1000},故可以將這些元組壓縮存儲為一條元組{KONKA,﹡,﹡,1000}。同理,屬性{type}中,其屬性值為PHONE的元組是BST,它和它的超集也可以壓縮存儲為一條元組{﹡,PHONE,﹡,2000}。經(jīng)過這樣的濃縮后,表3.13的的濃縮立方體為表3.15。28屬性{product}的所有超集{product,ty表3.15基本數(shù)據(jù)集POS的濃縮立方體product type counter M(AVG(price))﹡

﹡1500KONKA ﹡

﹡1000TCL

﹡1500NOKIA

﹡2000﹡

TVSET ﹡1250﹡PHONE﹡2000﹡

﹡011500﹡TVSET 01125029表3.15基本數(shù)據(jù)集POS的濃縮立方體product ty可以看出濃縮立方體是全聚集立方體的有效濃縮。由于在一般的應(yīng)用中,當(dāng)屬性個(gè)數(shù)較多時(shí),BST是廣泛存在的。一般來說,其壓縮率可以達(dá)到30%~7O%。30可以看出濃縮立方體是全聚集立方體的有效濃縮。303.4.5多維數(shù)據(jù)分析的MDX語言

及其應(yīng)用1.MDX語言簡介MDX(MultiDimensionaleXpressions,多維表達(dá)式)是聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)倉庫應(yīng)用中最廣泛使用的軟件語言(維度語言)。MDX語言可以查詢和管理多維數(shù)據(jù)倉庫,MDX表達(dá)式可以用來創(chuàng)建新的計(jì)算成員。313.4.5多維數(shù)據(jù)分析的MDX語言

MDX與SQL的比較相同:MDX與SQL都包含“選擇對象”(select子句)、“數(shù)據(jù)源”(from子句)以及“指定條件”(where子句),不同:MDX結(jié)合了多維數(shù)據(jù)集,指定“維度”(On子句)和“創(chuàng)建表達(dá)式計(jì)算的新成員”(MEMBER子句)。MDX語法還包含功能強(qiáng)大的函數(shù),以協(xié)助數(shù)據(jù)處理與挖掘。32MDX與SQL的比較相同:MDX與SQL都包含“選擇對象”(具體說明

(1)關(guān)鍵字SELECT后帶需要檢索內(nèi)容的子句。 (2)關(guān)鍵字ON和維度(坐標(biāo)軸)的名稱一起使用,以指定數(shù)據(jù)庫維度顯示位置。(3)MDX用大括號{}包含某個(gè)特定維度或者多個(gè)維度的一組元素。一個(gè)維度(度量維度或時(shí)間維度)的多個(gè)元素間用逗號(,)隔開。元素名稱用方括號[]引用,并且不同組成部分之間用點(diǎn)號(.)分隔。33具體說明(1)關(guān)鍵字SELECT后帶需要檢索內(nèi)容的子句。 (4)在一個(gè)MDX查詢中,不同查詢的維度(坐標(biāo)軸)的數(shù)量可能不同。前三個(gè)坐標(biāo)軸以“columns”、“rows”及“pages”命名,更多的坐標(biāo)軸命名為:chapters、section等。也可以統(tǒng)一用axis(0)、axis(l)、axis(2)等表示坐標(biāo)軸。 (5)MDX查詢中FROM子旬指明用于查詢數(shù)據(jù)的多維數(shù)據(jù)集。 (6)WHERE子句指定在列或行(或者其他的坐標(biāo)軸)上沒有出現(xiàn)的多維數(shù)據(jù)集的成 員。 34(4)在一個(gè)MDX查詢中,不同查詢的維度(坐標(biāo)軸)的數(shù)量可能2.多維數(shù)據(jù)查詢在多維數(shù)據(jù)集中用得最多的查詢是對多維數(shù)據(jù)的切片查詢,通過不同角度的切片來發(fā)現(xiàn)問題。通過下鉆操作一般用來查詢問題的原因。下面分別通過切片查詢和向下鉆取操作例子進(jìn)行說明。352.多維數(shù)據(jù)查詢35例1:切片查詢在多維數(shù)據(jù)集Sales中,顧客所在的MA州,對時(shí)間2009年Q1(1季度)和Q2(2季度)的銷售額DollarSales和銷售數(shù)量UnitSales的情況,進(jìn)行切片查詢。MDX語言的切片查詢語句:36例1:切片查詢在多維數(shù)據(jù)集Sales中,顧客所在的MA州,對SELECT {[Measures].[DollarSales],[Measures].[UnitSales]} Oncolumns, {[Time].[Q1,2009],[Time].[Q2,2009]}Onrows FROM[Sales] WHERE([Customer].[MA]) 37SELECT 37切片查詢結(jié)果DollarSalesUnitSalesQ1,200996,949.13866Q2,2009104,510.2412538切片查詢結(jié)果DollarSalesUnitSalesQ1例2:向下鉆取操作一種常用的查詢是獲得一個(gè)成員的子成員。這么做的目的是執(zhí)行一個(gè)向下鉆取操作,即獲得基于一個(gè)共同父成員的范圍內(nèi)的成員。MDX提供.Children函數(shù)來完成這個(gè)操作。39例2:向下鉆取操作一種常用的查詢是獲得一個(gè)成員的子成員。這么下面將對多維數(shù)據(jù)集Sales中,顧客所在的TX州,向下鉆取查詢:工具產(chǎn)品[Product].[Tools]成員和它的子成員(Tool1、…Tool5),以及2009年Q3(3季度)成員的子成員(7、8、9)三個(gè)月的銷售數(shù)量[Measures].[UnitSales]情況。MDX語言的向下鉆取操作語句如下:40下面將對多維數(shù)據(jù)集Sales中,顧客所在的TX州,向下鉆取查SELECT {[Time].[Q3,2009].Children}oncolumns, {[Product].[Tools],[Product].[Tools].Children} Onrows FROMSales WHERE([Customer].[TX],[Measures].[UnitSales])41SELECT 41Tools成員及其子成員報(bào)表的顯示

July,2009aug,2009sep,2009Tools176266205Tool132121Tool27885Tool357

56Tool44867Tool5396442Tools成員及其子成員報(bào)表的顯示July,2009augMDX語言更多功能

MDX語言中,允許的算術(shù)操作符有:加+、減-、乘*、除/、括號()。允許的函數(shù)有:Avg()平均值;Aggregate()聚合函數(shù)定義的聚合值;Count()值或元組的個(gè)數(shù);Sum()值的和;Max()最大值;Median()集的中位值;Min()最小值;Stdev()值的樣本標(biāo)準(zhǔn)差;StdevP()值的總體標(biāo)準(zhǔn)差;Var()值的樣本方差;VarP()值的總體方差…等等。43MDX語言更多功能MDX語言中,允許的算術(shù)操作符有:加+、允許額外的數(shù)字計(jì)算函數(shù)有:Abs(num),num的絕對值;Exp(N),e的N次冪 ;Factorial(N),N的階乘;Ln(nun),Num的自然對數(shù)…等等。MDX語言還具有更高級的功能,能幫助公司進(jìn)行:保險(xiǎn)索賠分析、產(chǎn)品質(zhì)量控制和顧客購物偏好等更高層次的決策分析。44允許額外的數(shù)字計(jì)算函數(shù)有:44習(xí)題15、16、19、20、2145習(xí)題15、16、19、45第3章

聯(lián)機(jī)分析處理(2)46第3章13.4OALP的多維數(shù)據(jù)分析(下)3.4.3廣義OLAP功能3.4.4數(shù)據(jù)立方體3.4.5多維數(shù)據(jù)分析的MDX語言及其應(yīng)用473.4OALP的多維數(shù)據(jù)分析(下)23.4.3廣義OLAP功能

1、基本代理操作

當(dāng)系統(tǒng)處于某種特殊狀態(tài)時(shí)“代理”提醒分析員。

(1)示警報(bào)告定義一些條件,一但條件滿足,系統(tǒng)會提醒分析員去做分析。如每日報(bào)告完成或月定貨完成等通知分析員作分析。(2)時(shí)間報(bào)告

按日歷和時(shí)鐘提醒分析員。

(3)異常報(bào)告當(dāng)超出邊界條件時(shí)提醒分析員。如銷售情況已超出預(yù)定義閾值的上限或下限時(shí)提醒分析員。483.4.3廣義OLAP功能1、基本代理操作32.?dāng)?shù)據(jù)分析模型(1)絕對模型通過比較歷史數(shù)據(jù)值或行為來描述過去發(fā)生的事實(shí)。絕對模型只能對歷史數(shù)據(jù)進(jìn)行比較,并且利用回歸分析等一些分析方法得出趨勢信息。492.?dāng)?shù)據(jù)分析模型(1)絕對模型4(2)解釋模型利用系統(tǒng)已有的多層次的綜合路徑層層細(xì)化,找出事實(shí)發(fā)生的原因。

假設(shè)今年銷售量下降,那么解釋模型應(yīng)當(dāng)能找出原因,即下滑與時(shí)間、地區(qū)、商品及銷售渠道四者中的何種因素有關(guān)。50(2)解釋模型利用系統(tǒng)已有的多層次的綜合路徑層層細(xì)化,找出事(3)思考模型說明在一維或多維上引入一組具體變量或參數(shù)后將會發(fā)生什么。例如該公司決策者為了了解某商品的銷售量是否與顧客的年齡有關(guān),引入了行變量-年齡,即在當(dāng)前的多維視圖上增加了顧客的年齡維。51(3)思考模型說明在一維或多維上引入一組具體變量或參數(shù)后將會(4)公式模型該模型表示在多個(gè)維上,需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生的結(jié)果。公式模型自動完成上述變量引入工作,從而最終找出與銷量有關(guān)的全部因素,并給出了引入后的結(jié)果。52(4)公式模型該模型表示在多個(gè)維上,需要引入哪些變量或參數(shù),3.商業(yè)分析模型(1)分銷渠道的分析模型(2)客戶利潤貢獻(xiàn)度模型(3)客戶關(guān)系(信用)優(yōu)化模型(4)風(fēng)險(xiǎn)評估模型533.商業(yè)分析模型(1)分銷渠道的分析模型8(1)分銷渠道的分析模型通過客戶、渠道、產(chǎn)品或服務(wù)三者之間的關(guān)系,了解客戶的購買行為、客戶和渠道對業(yè)務(wù)收入的貢獻(xiàn)、哪些客戶比較喜好由什么渠道在何時(shí)和銀行打交道。為此,銀行需要建立客戶購買傾向模型和渠道喜好模型等。54(1)分銷渠道的分析模型通過客戶、渠道、產(chǎn)品或服務(wù)三者之間的(2)客戶利潤貢獻(xiàn)度模型通過該模型能了解每一位客戶對銀行的總利潤貢獻(xiàn)度。知道哪些利潤高的客戶需要留住,采用什么方法留住客戶,交叉銷售改善客戶的利潤貢獻(xiàn)度,哪些客戶應(yīng)該爭取,完成個(gè)性化服務(wù)。55(2)客戶利潤貢獻(xiàn)度模型通過該模型能了解每一位客戶對銀行的總(3)客戶關(guān)系(信用)優(yōu)化模型銀行對客戶的每一筆交易中,知道客戶需要什么產(chǎn)品或服務(wù),例如,定期存款是希望退休養(yǎng)老使用,申請信用卡需要現(xiàn)金消費(fèi),詢問放貸利息需要住房貸款等。通過模型計(jì)算,主動地對客戶溝通并進(jìn)行交叉銷售,達(dá)到留住客戶和增加利潤的目標(biāo)。56(3)客戶關(guān)系(信用)優(yōu)化模型銀行對客戶的每一筆交易中,知道(4)風(fēng)險(xiǎn)評估模型模擬風(fēng)險(xiǎn)和利潤間的關(guān)系,建立風(fēng)險(xiǎn)評估的數(shù)學(xué)模型:

在滿足高利潤、低風(fēng)險(xiǎn)客戶需求的前提下,達(dá)到銀行收益的極大化。57(4)風(fēng)險(xiǎn)評估模型模擬風(fēng)險(xiǎn)和利潤間的關(guān)系,建立3.4.4數(shù)據(jù)立方體1.概述1996年,JimGray等首次提出了數(shù)據(jù)立方體(DataCube)的概念。

數(shù)據(jù)立方體就是數(shù)據(jù)倉庫結(jié)構(gòu)圖(圖2.1)中的綜合數(shù)據(jù)層(輕度和高度)。基于數(shù)據(jù)立方體的生成方法一直是OLAP和數(shù)據(jù)倉庫領(lǐng)域研究者所關(guān)注的熱點(diǎn)問題。583.4.4數(shù)據(jù)立方體1.概述13對于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過程。在數(shù)據(jù)立方體中,不同維度組合構(gòu)成了不同的子立方體。不同維值的組合及其對應(yīng)的度量值構(gòu)成了不同的查詢和分析。數(shù)據(jù)立方體的構(gòu)建和維護(hù)等計(jì)算方法成為了多維數(shù)據(jù)分析研究的關(guān)鍵問題。59對于多維數(shù)據(jù)分析而言,本質(zhì)上是沿著不同的維度進(jìn)行數(shù)據(jù)獲取的過OLAP和數(shù)據(jù)倉庫通常預(yù)先計(jì)算好不同細(xì)節(jié)層次和不同維屬性集合上的聚集,并把聚集的結(jié)果存儲到物理磁盤上(稱為物化)。把所有可能的聚集(即全聚集)都計(jì)算出來,可以得到最快的系統(tǒng)查詢響應(yīng)時(shí)間,60OLAP和數(shù)據(jù)倉庫通常預(yù)先計(jì)算好不同細(xì)節(jié)層次和不同維屬性集合數(shù)據(jù)立方體是在所有可能組合的維上進(jìn)行分組聚集運(yùn)算(groupby操作)的總和。聚集函數(shù)有:sum()、count()、average()等。數(shù)據(jù)立方體中的每一個(gè)元組(立方體的度量屬性)被稱為該立方體的上個(gè)格(cell),每個(gè)格在n個(gè)維屬性上有相應(yīng)的值。在未參與groupby操作的維屬性上具有All值(用﹡表示),而在參與groupby操作的維屬性具有非All值。61數(shù)據(jù)立方體是在所有可能組合的維上進(jìn)行分組聚集運(yùn)算(group例如,對于一個(gè)具有三個(gè)維屬性A、B、C和一個(gè)度量屬性M的數(shù)據(jù)集R(A,B,C,M).其對應(yīng)的數(shù)據(jù)立方體是在維屬性集{},{A},{B},{C},{AB},{AC},{BC},{ABC}上分別對度量屬性進(jìn)行聚集操作后的并集。其中:{}表示進(jìn)行聚集運(yùn)算{*,*,*,聚集函數(shù)(M)};{A}表示進(jìn)行聚集運(yùn)算{A,*,*,聚集函數(shù)(M)}等。62例如,對于一個(gè)具有三個(gè)維屬性A、B、C和一個(gè)度量屬性M這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉庫中的一種高度綜合級數(shù)據(jù).實(shí)質(zhì)上是進(jìn)行了數(shù)據(jù)的濃縮(壓縮),也可稱為泛化。最終所獲得的這些數(shù)據(jù)立方體可用于決策支持、知識發(fā)現(xiàn),或其它許多應(yīng)用。63這些聚集運(yùn)算與操作結(jié)果是數(shù)據(jù)倉庫中的一種高度綜合級數(shù)據(jù).18例如,對如表3.12所示的超市的基本數(shù)據(jù)集POS(product,type,counter,price),前三個(gè)屬性分別代表(產(chǎn)品名、類型、柜臺)為維屬性.

現(xiàn)在對度量屬性價(jià)格price進(jìn)行取平均值(average)的聚集運(yùn)算,通過Cube操作可以得到一個(gè)具有三個(gè)維屬性和一個(gè)度量屬性的數(shù)據(jù)立方體Dpos,如表3.13所示。64例如,對如表3.12所示的超市的基本數(shù)據(jù)集POS(prod表3.12基本數(shù)據(jù)集POS

product type counter price KONKA TVSET 011000TCL TVSET 011500NOKIA PHONE 01200065表3.12基本數(shù)據(jù)集POS KONKA TVSET product type counter M(AVG(price))﹡

﹡1500KONKA ﹡

﹡1000TCL

﹡1500NOKIA

﹡2000﹡

TVSET ﹡1250﹡PHONE﹡2000﹡

﹡011500KONKA TVSET ﹡1000TCL TVSET ﹡1500NOKIAPHONE﹡2000﹡TVSET 011250﹡PHONE 012000KONKA ﹡011000TCL ﹡011500NOKIA﹡012000KONKATVSET 011000TCL TVSET 011500NOKIAPHONE 01200066﹡ ﹡ ﹡1500KONKA ﹡ ﹡1000TCL ﹡全聚集的數(shù)據(jù)占據(jù)的空間是原始數(shù)據(jù)空間的數(shù)百倍,花費(fèi)很長時(shí)間。故數(shù)據(jù)立方體構(gòu)建部分物化:即按照一定的規(guī)則選擇數(shù)據(jù)立方體的一個(gè)子集進(jìn)行預(yù)先計(jì)算。這種選擇是存儲空間和響應(yīng)時(shí)間的一種折衷。67全聚集的數(shù)據(jù)占據(jù)的空間是原始數(shù)據(jù)空間的數(shù)百倍,花費(fèi)很長時(shí)間。典型的壓縮型數(shù)據(jù)立方體,包括:冰山立方體、緊湊數(shù)據(jù)立方體、外殼片段立方體等。隨著流式數(shù)據(jù)處理技術(shù)的發(fā)展,流立方體生成方法越來越受到領(lǐng)域研究者的關(guān)注。68典型的壓縮型數(shù)據(jù)立方體,包括:23(1)冰山立方體在冰山立方體的生成計(jì)算中,僅聚集高于(或低于)某個(gè)閾值的子立方體。數(shù)據(jù)立方體的空間多數(shù),被低(或高)度量值的數(shù)據(jù)單元所占據(jù),而這些數(shù)據(jù)單元往往是分析者很少關(guān)心的內(nèi)容。這種方法的優(yōu)點(diǎn)是能夠減少構(gòu)建數(shù)據(jù)單元所占用的存儲空間。69(1)冰山立方體24例如,在表3.12中,設(shè)定聚集運(yùn)算條件:M(AVG(price))

≤1250,其冰山立方體為表3.14所示。表3.14

基本數(shù)據(jù)集POS的冰山立方體

product type counter M(AVG(price))KONKA ﹡

﹡1000﹡

TVSET ﹡1250KONKA TVSET ﹡1000﹡TVSET 011250KONKA ﹡011000KONKATVSET 01100070例如,在表3.12中,設(shè)定聚集運(yùn)算條件:M(AVG(pric(2)緊湊數(shù)據(jù)立方體生成方法緊湊數(shù)據(jù)立方體生成方法的一個(gè)重要特點(diǎn)是能夠保持?jǐn)?shù)據(jù)立方體的鉆取操作的語義。這種緊湊數(shù)據(jù)立方體生成方法在壓縮的方式和表現(xiàn)形式上表現(xiàn)出有不同的特征,包括:濃縮立方體(Condensedcube)、商立方體(Quotientcube)等,這些都是近年來出現(xiàn)的一系列新型的數(shù)據(jù)立方體的存儲結(jié)構(gòu)。71(2)緊湊數(shù)據(jù)立方體生成方法緊湊數(shù)據(jù)立方體生成方法的一個(gè)重要濃縮立方體濃縮立方體計(jì)算方法的基本原理是,在某些屬性或組合下的一個(gè)元組相對于其它元組具有唯一性,則稱為基本單一元組(BST,BaseSingleTuple)。當(dāng)它的超集(增加屬性組合)也是BST,且都是取同一度量值,在聚集運(yùn)算時(shí),可以把這些屬性的度量值對應(yīng)的元組壓縮成一條元組存儲。72濃縮立方體濃縮立方體計(jì)算方法的基本原理是,在某些屬性或組合下屬性{product}的所有超集{product,type},{product,counter},{product,type,counter }也是BST,且都具有相同值。如{KONKA,﹡,﹡,1000},{KONKA,TVSET,﹡,1000},{KONKA,﹡,01,1000},{KONKA,TVSET,01,1000},故可以將這些元組壓縮存儲為一條元組{KONKA,﹡,﹡,1000}。同理,屬性{type}中,其屬性值為PHONE的元組是BST,它和它的超集也可以壓縮存儲為一條元組{﹡,PHONE,﹡,2000}。經(jīng)過這樣的濃縮后,表3.13的的濃縮立方體為表3.15。73屬性{product}的所有超集{product,ty表3.15基本數(shù)據(jù)集POS的濃縮立方體product type counter M(AVG(price))﹡

﹡1500KONKA ﹡

﹡1000TCL

﹡1500NOKIA

﹡2000﹡

TVSET ﹡1250﹡PHONE﹡2000﹡

﹡011500﹡TVSET 01125074表3.15基本數(shù)據(jù)集POS的濃縮立方體product ty可以看出濃縮立方體是全聚集立方體的有效濃縮。由于在一般的應(yīng)用中,當(dāng)屬性個(gè)數(shù)較多時(shí),BST是廣泛存在的。一般來說,其壓縮率可以達(dá)到30%~7O%。75可以看出濃縮立方體是全聚集立方體的有效濃縮。303.4.5多維數(shù)據(jù)分析的MDX語言

及其應(yīng)用1.MDX語言簡介MDX(MultiDimensionaleXpressions,多維表達(dá)式)是聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)倉庫應(yīng)用中最廣泛使用的軟件語言(維度語言)。MDX語言可以查詢和管理多維數(shù)據(jù)倉庫,MDX表達(dá)式可以用來創(chuàng)建新的計(jì)算成員。763.4.5多維數(shù)據(jù)分析的MDX語言

MDX與SQL的比較相同:MDX與SQL都包含“選擇對象”(select子句)、“數(shù)據(jù)源”(from子句)以及“指定條件”(where子句),不同:MDX結(jié)合了多維數(shù)據(jù)集,指定“維度”(On子句)和“創(chuàng)建表達(dá)式計(jì)算的新成員”(MEMBER子句)。MDX語法還包含功能強(qiáng)大的函數(shù),以協(xié)助數(shù)據(jù)處理與挖掘。77MDX與SQL的比較相同:MDX與SQL都包含“選擇對象”(具體說明

(1)關(guān)鍵字SELECT后帶需要檢索內(nèi)容的子句。 (2)關(guān)鍵字ON和維度(坐標(biāo)軸)的名稱一起使用,以指定數(shù)據(jù)庫維度顯示位置。(3)MDX用大括號{}包含某個(gè)特定維度或者多個(gè)維度的一組元素。一個(gè)維度(度量維度或時(shí)間維度)的多個(gè)元素間用逗號(,)隔開。元素名稱用方括號[]引用,并且不同組成部分之間用點(diǎn)號(.)分隔。78具體說明(1)關(guān)鍵字SELECT后帶需要檢索內(nèi)容的子句。 (4)在一個(gè)MDX查詢中,不同查詢的維度(坐標(biāo)軸)的數(shù)量可能不同。前三個(gè)坐標(biāo)軸以“columns”、“rows”及“pages”命名,更多的坐標(biāo)軸命名為:chapters、section等。也可以統(tǒng)一用axis(0)、axis(l)、axis(2)等表示坐標(biāo)軸。 (5)MDX查詢中FROM子旬指明用于查詢數(shù)據(jù)的多維數(shù)據(jù)集。 (6)WHERE子句指定在列或行(或者其他的坐標(biāo)軸)上沒有出現(xiàn)的多維數(shù)據(jù)集的成 員。 79(4)在一個(gè)MDX查詢中,不同查詢的維度(坐標(biāo)軸)的數(shù)量可能2.多維數(shù)據(jù)查詢在多維數(shù)據(jù)集中用得最多的查詢是對多維數(shù)據(jù)的切片查詢,通過不同角度的切片來發(fā)現(xiàn)問題。通過下鉆操作一般用來查詢問題的原因。下面分別通過切片查詢和向下鉆取操作例子進(jìn)行說明。802.多維數(shù)據(jù)查詢35例1:切片查詢在多維數(shù)據(jù)集Sales中,顧客所在的MA州,對時(shí)間2009年Q1(1季度)和Q2(2季度)的銷售額DollarSales和銷售數(shù)量UnitSa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論