數據倉庫和數據挖掘的OLAP技術第2章_第1頁
數據倉庫和數據挖掘的OLAP技術第2章_第2頁
數據倉庫和數據挖掘的OLAP技術第2章_第3頁
數據倉庫和數據挖掘的OLAP技術第2章_第4頁
數據倉庫和數據挖掘的OLAP技術第2章_第5頁
已閱讀5頁,還剩103頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據倉庫和數據挖掘的OLAP技術第2章第2章 數據倉庫和數據挖掘

的OLAP技術什么是數據倉庫多維數據模型數據倉庫的系統結構數據倉庫的實現數據立方體技術的進一步發展從數據倉庫到數據挖掘2什么是數據倉庫1、需求產生DW使顧客滿意,不斷增加利潤,提高市場份額,這些是目前商業競爭的基本目標。利用IT可以使我們獲得成功。答案之一就是DW:公司的目標如何與信息系統結合;如何建立具有交叉功能的信息系統;數據的合理組織和利用。

32、數據處理分為兩大類事務處理:DB聯機的日常操作,對一個或一組記錄的查詢和修改,為企業服務。分析型處理:用于管理人員的決策分析。例如DSS、EIS和多維分析,經常要訪問大量的歷史數據。43、事務處理環境不適宜DSS應

用的原因事務處理和分析處理的性能特性不同數據集成問題(DSS需要集成的數據)a.事務處理應用的分散;b.蜘蛛網問題;

c.數據不一致問題;d.外部數據和非結構化數據。

數據動態集成問題:數據必須以一定的周期進行刷新。歷史數據問題。在DB中存在大量的歷史數據,沒有充分利用。

5DW的主要驅動力是市場競爭要求捕獲和分析事務的業務數據,必須把分析型數據從事務處理環境中提取出來;DW是為了建立這種新的分析處理環境而出現的一種數據存儲和組織技術。4、數據綜合6“數據倉庫是一個面向主題的、集成的、時變的、非易失的數據集合,支持管理部門的決策過程”—W.H.Inmon什么是建立數據倉庫 我們把建立數據倉庫看作是構造和使用數據倉庫的過程7數據倉庫的面向主題性數據倉庫是面向在數據模型中已定義好的公司的主要主題領域的,典型的例子有顧客、產品、銷售等數據倉庫主要關注DSS分析員的數據建模與分析,而不是集中于組織機構的日常操作和事務處理數據倉庫排除對于決策無用的數據,提供特定主題的簡明的視圖8數據倉庫的集成性數據倉庫是將多個異種數據源的數據集成在一起a.異種數據源包括有關系數據庫、一般文件和聯機事務處理記錄等數據倉庫使用數據清理和數據集成技術a.數據清理和數據集成技術確保多個異種數據源中命名約定、編碼結構、屬性度量等的一致性b.當數據從操作型環境進入到數據倉庫,已經被進行過清理和轉換9數據倉庫的時變性數據倉庫中的數據時間期限要遠遠長于操作型系統中的數據時間期限a.操作型系統含有“當前值”數據,時間期限一般是60-90天b.數據倉庫從歷史的角度提供信息,其中的數據僅僅是一系列某一時刻生成的復雜的快照,時間期限通常是5-10年數據倉庫中的鍵碼結構a.數據倉庫中的關鍵結構,隱式或顯式地包含時間元素b.操作型系統的鍵碼結構可能不包括時間元素10數據倉庫是非易失的數據倉庫總是物理地、分離存放數據數據倉庫中不進行操作型環境中的數據更新a.數據倉庫不需要事務處理、恢復和并發控制機制b.數據倉庫通常只需要兩種數據訪問:數據的初始化裝入和數據訪問11怎樣建立數據倉庫

把建立數據倉庫看作是構造和使用數據倉庫的過程主題是對應某一分析領域的分析對象DW是一個用以更好地支持企業或組織的決策分析處理的、面向主題的、集成的、不可更新的、非易失的數據集合12實現DW要做:

從不同數據來源中如何集成數據數據質量:精確和簡煉數據的概括和聚集每當數據源中創建了新數據時,如何保證DW和數據源的同步更新在同一臺計算機和RDB的平臺上,當DW的DB和工具共享時如何保證性能

13DW中的數據組織在DW中的數據分為四個級別:早期細節級、當前細節級、輕度綜合級、高度綜合級源數據經過綜合后,首先進入當前細節級,并根據具體需要進行進一步的綜合從而進入輕度綜合級及至高度綜合級(以DW中數據的四個基本特征為基礎)141516數據倉庫主要用于集中存放用戶需要分析的歷史數據數據倉庫的邏輯結構:

a.近期基本數據層b.歷史數據層c.綜合數據層(為決策服務)數據倉庫的物理結構:a.星型結構(一般使用)b.雪花結構17數據倉庫的特征面向主題集成性時變的非易失的18數據倉庫中的數據分類詳細型數據過去詳細數據當前詳細數據匯總型數據輕度匯總數據高度匯總數據元數據19數據倉庫的主要組成部分數據源數據抽取(Extraction)、

轉換(Transformation)和裝載(Load)工具。數據建模工具核心倉儲(CentralRepository)數據倉庫的目標數據庫前端數據訪問和分析工具數據倉庫管理工具20數據倉庫的主要特點數據倉庫容量可存放TB級別的數據;獲得快速抽樣算法生成功能強大、容易使用的、高質量的報表;實現海量數據的快速查詢功能;可視化分析良好的、模塊劃的多維分析模型多維模型升級快21什么是OLAP基本概念a.變量

b.維c.維的層次:d.維成員e.多維數組f.數據單元(單元格)多維分析的基本分析動作①切片(slice)②切塊(Dice)③旋轉:改變一個報告或頁面顯示的維方向通過OLAP服務器,將DB中的數據抽取和轉換為多維數據結構,以反映用戶所能理解的企業的真實的維。22OLTP與OLAP的關系級比較OLTP面對操作人員和低層管理人員,OLAP面對的決策人員和高層管理人員。數據的特點:23OLAP產品的十二條評價準則準則1OLAP模型必須提供多維概念視圖準則2透明性準則準則3存取能力準則準則4穩定的報表性能準則5客戶/服務器體系結構準則6維的等同性準則準則7動態的稀疏矩陣處理準則準則8多用戶支持能力準則準則9非管理的跨維操作準則10直觀的數據操縱準則11靈活的報表生成準則12不受限維與聚集層次24OLAP的三層客戶/服務器25基于多維數據庫的OLAP實現

多維數據

維的層次關系和類維類維的層次和類的區別:時間序列數據類型多維DB存儲MDDB存取26基于RDB的OLAP實現OLAP數據處理的一般過程:即數據裝入、匯總、建索引和提供使用。OLAP的特點OLAP最重要的特點是具有多維概念視圖,這也常常被稱作多維數據模型MDM,把業務過程轉為一個多維模型的過程稱為多維建模。OLAP技術主要使用的是事實表、分維表、層次、稀疏性等概念和方法。27數據倉庫和異種DBMS數據集成的區別傳統的異種數據庫的數據集成:在多個異種數據庫上建立一個包裝程序和一個集成程序(或中介程序)查詢驅動的方法數據倉庫使用高效的更新驅動方法將來自多個異種數據源的信息預先集成,并儲存在數據倉庫中,供直接查詢和分析28OLTP系統和OLAP系統的比較29為什么需要一個分離的數據倉庫?分離的主要原因是提高兩個系統的性能DBMS—適用于OLTP處理:數據倉庫—適用于OLAP處理:兩種系統中數據的結構、內容和用法都不相同數據內容:決策支持系統需要歷史數據,而操作數據庫一般不維護歷史數據數據的統一性:決策支持需要將來自異種數據源的數據統一(如聚集和匯總),產生高質量的集成數據數據質量:異種數據源中的數據通常具有不同的數據表示法,不同的編碼機制和格式,數據倉庫將其統一,能產生高質量的、純凈的集成數據30第2章 數據倉庫和數據挖掘的OLAP技術什么是數據倉庫?多維數據模型數據倉庫的系統結構數據倉庫的實現數據立方體技術的進一步發展從數據倉庫到數據挖掘31由表和電子數據表到數據立方體數據倉庫和OLAP工具基于多維數據模型,該模型將數據看作數據立方體形式一個數據立方體,比如商店的銷售,允許以多維對數據建模和觀察例如item(item_name,brand,type),time(day,week,month,quarter,year)稱為維表,關聯維item和time事實表包括事實的名稱或度量(比如dollars_sold),以及每個相關維表的關鍵字在數據倉庫研究文獻中,存放最低層匯總數據的方體稱為基本方體。0-維方體存放最高層的匯總數據,稱作頂點方體。方體的格稱為數據立方體32數據立方體:方體的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,suppliertime,item,location,supplier0-D(頂點)方體1-D方體2-D方體3-D方體4-D(基本)方體33數據倉庫的概念建模數據倉庫的建模:按維和度量星型模式:模式圖很像星星爆發,維表圍繞事實表顯示在射線上雪花模式:雪花模式是星型模式的變種,其中某些維表是規范化的,把數據進一步分解到附加的表中,形成類似于雪花的形狀事實星座:多個事實表共享維表,這種模式可以看作星型模式集,因此也可以稱為星系模式,或者事實星座34星型模式的例子

time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcityprovince_or_streetcountrylocation維表Sales事實表

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales各種度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表35雪花模式的例子time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcity_keylocation維表Sales事實表

time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales各種度量item_keyitem_namebrandtypesupplier_keyitem維表branch_keybranch_namebranch_typebranch維表supplier_keysupplier_typesupplier維表city_keycityprovince_or_streetcountrycity維表36事實星座的度量time_keydayday_of_the_weekmonthquarteryeartime維表location_keystreetcityprovince_or_streetcountrylocation維表Sales事實表time_key

item_key

branch_key

location_key

units_sold

dollars_sold

avg_sales各種度量item_keyitem_namebrandtypesupplier_typeitem維表branch_keybranch_namebranch_typebranch維表Shipping事實表time_key

item_key

shipper_key

from_location

to_location

dollars_cost

units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper維表37數據挖掘查詢語言DMQL立方體定義(對應事實表)definecube<cube_name>[<dimension_list>]:<measure_list>維定義(對應維表)definedimension<dimension_name>as(<attribute_or_subdimension_list>)特殊情況(共享的維表)先定義數據立方體definedimension<dimension_name>as<dimension_name_first_time>incube<cube_name_first_time>38用DMQL定義星型模式definecubesales_star[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)39用DMQL定義雪花模式definecubesales_snowflake[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier(supplier_key,supplier_type))definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city(city_key,province_or_state,country))40用DMQL定義事實星座definecubesales[time,item,branch,location]:dollars_sold=sum(sales_in_dollars),avg_sales=avg(sales_in_dollars),units_sold=count(*)definedimensiontimeas(time_key,day,day_of_week,month,quarter,year)definedimensionitemas(item_key,item_name,brand,type,supplier_type)definedimensionbranchas(branch_key,branch_name,branch_type)definedimensionlocationas(location_key,street,city,province_or_state,country)definecubeshipping[time,item,shipper,from_location,to_location]:dollar_cost=sum(cost_in_dollars),unit_shipped=count(*)definedimensiontimeastimeincubesalesdefinedimensionitemasitemincubesalesdefinedimensionshipperas(shipper_key,shipper_name,locationaslocationincubesales,shipper_type)definedimensionfrom_locationaslocationincubesalesdefinedimensionto_locationaslocationincubesales41度量的分類和計算分布的:設數據被劃分為n個集合,函數在每一部分上的計算得到一個聚集值,如果將函數用于n個聚集值得到的結果,與將函數用于所有數據得到的結果一樣,則該函數可以用分布方式計算,該聚集函數是分布的E.g.,count(),sum(),min(),max().42代數的:一個聚集函數是代數的,如果它能夠由一個具有M個參數的代數函數計算(其中M是一個有界整數),而每個參數都可以用一個分布聚集函數得到E.g.,avg(),min_N(),standard_deviation().43整體的:一個聚集函數是整體的,如果描述它的子聚集所需的存儲沒有一個常數界E.g.,median(),mode(),rank().44概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan..................allregionofficecountryTorontoFrankfurtcity45數據倉庫概念分層視圖46概念分層分類模式分層day<{month<quarter;week}<year集合分組分層{1..10}<inexpensive47多維數據模型數據立方體sales中每格的度量可以看作是關聯Product、Region和Month的函數ProductRegionMonth涉及的維:Product,Location,Time屬性的層次結構和格結構IndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay48數據立方體樣本全年度美國電視機的銷售量DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum49立方體中不同匯總級相應的方體allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(頂點)方體1-D方體2-D方體3-D(基本)方體50數據立方體覽圖可視化適合OLAP操作交互式操作51典型的OLAP操作上卷(上鉆):數據的匯總通過一個維的概念分層向上攀升或者通過維歸約來實現下鉆(下卷):上卷的逆操作通過沿維的概念分層由高粒度向下下鉆到低粒度的層次或者通過引入新的維來實現切片和切塊:映射和選擇

52轉軸(旋轉):轉動數據的視角,是一種目視操作,如將3-D立方轉換成2-D平面序列其他OLAP操作鉆過:涉及多個事實表的查詢鉆透:鉆到數據立方體底層,到達后端關系表(使用SQL機制)53星型網查詢模型

ShippingMethodAIR-EXPRESSTRUCKORDERCustomerOrdersCONTRACTSCustomerProductPRODUCTGROUPPRODUCTLINEPRODUCTITEMSALESPERSONDISTRICTDIVISIONOrganizationPromotionCITYCOUNTRYREGIONLocationDAILYQTRLYANNUALYTime每個圈稱為一個腳印54第2章 數據倉庫和數據挖掘的OLAP技術什么是數據倉庫?多維數據模型數據倉庫的系統結構數據倉庫的實現數據立方體技術的進一步發展從數據倉庫到數據挖掘55數據倉庫設計:一個商務分析框架數據倉庫的設計必須考慮四種不同的視圖自頂向下視圖可以選擇數據倉庫所需的相關信息,這些信息能夠滿足當前和未來商務的需求數據源視圖揭示被操作數據庫系統捕獲、存儲和管理的信息數據倉庫視圖包括事實表和維表,提供存放在數據倉庫內部的信息商務查詢視圖從最終用戶的角度透視數據倉庫中的數據56數據倉庫設計過程采用自頂向下方法,或者自底向上方法,或者混合方法自頂向下:由總體規劃和設計開始(成熟)自底向上:由實驗和原型開始(快速)從軟件工程的觀點看瀑布式方法:在進行下一步之前,每一步都進行結構化和系統的分析,像瀑布一樣從一級落到下一級螺旋式方法:涉及功能漸增的系統的快速產生,相繼版本之間的間隔很短,對數據集市是一個好的選擇典型的數據倉庫設計過程選取待建模的商務處理,如訂單、發票、出貨、庫存、記帳等選取商務處理的粒度(數據的原子級),如一天的快照等選取用于每個事實表的維選取將安放在事實表中的度量57多層數據倉庫體系結構數據倉庫提取轉換裝入刷新OLAP服務器分析查詢報告數據挖掘監控&匯總元數據前端工具輸出數據集市操作數據庫外部信息源數據源數據存儲器OLAP服務器58三類數據倉庫模型企業倉庫搜集關于主題的所有信息,跨越整個組織,通常包括詳細數據和匯總數據數據集市包含對于特定用戶有用的企業范圍內數據的一個子集,通常包括的數據是匯總的。其范圍限于選定的主題,例如商場的顧客、商品和銷售獨立數據集市和依賴數據集市(數據直接來自企業倉庫)的區別虛擬倉庫操作數據庫上視圖的集合只有一些可能的匯總視圖被物化59數據倉庫開發的推薦方法定義高層數據模型數據集市數據集市分布式數據集市多層數據倉庫企業數據倉庫模型提煉模型提煉60OLAP服務器類型關系OLAP(ROLAP)

服務器使用關系或擴充關系DBMS存放和管理數據倉庫,而OLAP中間件支持其余部分多維OLAP(MOLAP)

服務器通過基于數組的多維存儲引擎,支持數據的多維視圖(采用稀疏矩陣技術)混合OLAP(HOLAP)服務器ROLAP和MOLAP技術的結合,有較大的靈活性。特殊的SQL服務器在星型和雪花模式上支持的特殊SQL查詢61第2章 數據倉庫和數據挖掘的OLAP技術什么是數據倉庫?多維數據模型數據倉庫的系統結構數據倉庫的實現數據立方體技術的進一步發展從數據倉庫到數據挖掘62數據立方體的有效計算數據立方體可以看作是方體的格最底層的方體稱為基本方體最高層(頂點)方體只包含一個單元一個具有L層的n維數據立方體一共有多少個方體?數據立方體的物化預先計算所有方體(全物化),不預先計算(不物化),

或者有選擇的物化(部分物化)物化方體的選擇考慮存儲需求量、訪問頻率和開銷、工作負荷的特點等63數據立方體的計算用DMQL定義和計算數據立方體definecubesales[item,city,year]:sum(sales_in_dollars)computecubesales轉換為類似SQL的語句(使用一種新的操作符cubeby(Grayetal.’96))SELECTitem,city,year,SUM(amount)FROMSALESCUBEBYitem,city,year需要計算下面的聚集子集

(date,product,customer),(date,product),(date,customer),(product,customer),(date),(product),(customer)()(item)(city)()(year)(city,item)(city,year)(item,year)(city,item,year)64基于ROLAP的數據立方體

計算方法(1)有效率的數據立方體計算方法基于ROLAP的立方體算法(Agarwaletal’96)基于數組的立方體算法(Zhaoetal’97)自下向上的計算方法(Bayer&Ramarkrishnan’99)基于ROLAP的立方體算法排序、散列和分組操作用于維屬性,以便對相關元組重新排序和聚類在某些子聚集上分組,作為“部分分組步驟”可以由以前計算的聚集計算新的聚集,而不必由基本事實表計算65基于ROLAP的數據立方體計算方法(2)基于散列、排序的方法(Agarwalet.al.

VLDB’96)挑選最小的“父方體”:從以前計算的方體中挑選最小的方體計算新的方體存儲計算結果:將方體計算結果存儲起來,用于其他方體的計算,有利于減少系統I/O減少掃描:同時計算盡可能多的方體,減少讀磁盤次數共享排序成本:當使用基于排序的計算方法時,合理分配多維立方體上的排序成本共享分割成本:當使用基于散列的計算方法時,合理分配多維立方體上的分割成本66數據立方體計算中的

多路數組聚集(1)將數組分割成塊(可以放入內存的子方)壓縮稀疏數組結構(使用chunk_id+offset尋址)通過訪問立方體單元計算聚集。可以優化訪問單元的次序,使得每個單元必須重復訪問的次數最小化,從而減少存儲訪問開銷和存儲開銷在多路數組聚集中,怎樣確定立方體的最佳訪問途徑?AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3CB44285640245236206067數據立方體計算中的

多路數組聚集(2)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B68數據立方體計算中的

多路數組聚集(3)AB29303132123459131415166463626148474645a1a0c3c2c1c0b3b2b1b0a2a3C442856402452362060B69數據立方體計算中的

多路數組聚集(4)計算方法:數據立方體中各塊平面必須按它們的大小遞增排序和計算具體請參考P50-51例2.12主要思想:在內存中存儲具有最小面積的塊平面,而對于具有最大面積的塊平面,每次只取其中的一塊進行計算算法的局限性:只適合于具有少數維的數據立方體這種算法要計算的方體個數隨維數指數增長,為了避免維增長災難,可以嘗試使用“自底向上”計算方法和冰山方計算方法70索引OLAP數據:位圖索引在給定的屬性上進行索引屬性上的每個值都有一個對應的位向量:位操作比較快速位向量的長度由基本表的記錄數量決定如果基本表中給定記錄的屬性值為v,則在位圖索引的對應行,表示v的位為1,該行的其他位均為0不適合基數較大的域71基本表Region位圖索引表Type位圖索引表72索引OLAP數據:連接索引連接索引:JI(R-id,S-id)whereR(R-id,…)S(S-id,…)傳統的索引將給定列上的值映射到具有該值的行表上必須物化JI中的關系連接,執行有很大開銷的連接操作在數據倉庫的星型模式中,連接索引維護維的屬性值和事實表的對應行之間的關系E.g.具有維city和product的事實表salescity維的連接索引維護了city維表上的值與sales事實表中的相應元組的連接關系連接索引可以跨越多維73OLAP查詢的有效處理確定哪些操作應當在可利用的方體上執行這涉及將查詢中的選擇、投影、上卷(分組)和下鉆操作轉換為對應的SQL和/或OLAP操作。例如,在數據立方體上,切片(切塊)=選擇+投影確定相關操作應當使用哪些物化的方體MOLAP查詢處理最好采用二級方法:對于稠密數組使用數組結構,對于稀疏數組使用稀疏矩陣結構和數據壓縮技術。二維稠密數組可以用B樹索引74元數據存儲元數據是關于數據的數據。它包括以下類型:數據倉庫結構的描述操作元數據匯總用的算法由操作環境到數據倉庫的映射關于系統性能的數據數據倉庫模式、視圖和源數據定義商務元數據包括商務術語和定義、數據擁有者信息和收費策略75數據倉庫后端工具和實用程序數據提取:通常從多個異種的外部數據源收集數據數據清理:檢測數據中的錯誤,可能是訂正它們數據變換:將數據由遺產或宿主格式轉換成數據倉庫格式裝入:排序、綜合、合并、計算視圖、檢查整體性,并建立索引和劃分刷新:傳播由數據源到數據倉庫的更新76第2章 數據倉庫和數據挖掘的OLAP技術什么是數據倉庫?多維數據模型數據倉庫的系統結構數據倉庫的實現數據立方體技術的進一步發展從數據倉庫到數據挖掘77數據立方體發現驅動的探查假定驅動:由用戶根據自己直覺去探查,搜索空間非常大發現驅動(Sarawagietal.’98)預計算的度量指出數據異常,在所有的聚集級知道用戶的數據分析過程異常:數據立方體的單元值,基于某種統計模型,顯著的不同于預期值可視提示(如背景色),異常指示符的計算(模型符合和計算SelfExp、InExp、PathExp度量)78發現驅動數據立方體的例子79多粒度上的復雜聚集:多特征方多特征方(Ross,etal.1998):計算復雜查詢,這些查詢涉及多粒度上多個依賴的聚集Ex.按{item,region,month}的所有子集分組,對每組找出2001年最高價格,以及所有具有最高價格的元組的總銷售額selectitem,region,month,max(price),sum(R.sales)frompurchaseswhereyear=2001cubebyitem,region,month:RsuchthatR.price=max(price)在上面的例子中,在最高價格的元組中,找出最小和最大的商品貨架壽命,并在所有最高價格的元組中,找出具有最小貨架壽命的元組的總銷售額部分80第2章 數據倉庫和數據挖掘的OLAP技術什么是數據倉庫?多維數據模型數據倉庫的系統結構數據倉庫的實現數據立方體技術的進一步發展從數據倉庫到數據挖掘81數據倉庫的使用三種數據倉庫應用信息處理:支持查詢和基本的統計分析,并使用交叉表、表、圖表或圖進行報告分析處理:支持數據倉庫的多維數據分析;支持基本的OLAP操作,包括切片和切塊、下鉆、上卷和轉軸數據挖掘從隱藏的模式中發現知識;支持關聯,構造分析模型,進行分類和預測,并用可視化工具提供挖掘結果82從聯機分析處理到聯機分析挖掘(OLAM)為什么要進行聯機分析挖掘?數據倉庫中數據的高質量數據倉庫提供集成的、一致的和清理過的數據環繞數據倉庫的有價值的信息處理基礎設施ODBC/OLEDB連接、Web訪問和服務工具以及報表和OLAP分析工具等基于OLAP的探測式數據分析采用上卷、切片、旋轉等進行挖掘數據挖掘功能的聯機選擇將多種數據挖掘功能集成在一起,并可靈活動態的變換挖掘的功能、方式、任務等OLAM的體系結構83一個集成的OLAM和OLAP結構數據倉庫元數據MDDBOLAM引擎OLAP引擎用戶圖形界面API數據方API數據庫API數據清理數據集成第三層OLAP/OLAM第二層多維數據庫第一層數據存儲第四層用戶界面數據過濾和集成過濾數據庫挖掘查詢挖掘結果84廣東移動計費數據倉庫及在線分析服務對歷史信息數據進行分析,得出各種信息之間的相互關系,分析不同用戶的行為特征,為移動決策提供數據依據。分析手段有:l

通過多維圖形和報表,了解業務發展情況。l

對歷史數據進行挖掘分析,發現用戶的行為特征。l

根據用戶的行為特征,對用戶進行分類。l

根據用戶對價格政策和優惠政策的行為反映,優化價格

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論