




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、前言:關(guān)于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘數(shù)據(jù)倉庫:數(shù)據(jù)倉庫:Data Warehouse (DW)1:數(shù)據(jù)倉庫的提出:從數(shù)據(jù)庫到數(shù)據(jù) 倉庫 2:數(shù)據(jù)倉庫的應(yīng)用情況及前景 3:數(shù)據(jù)挖掘背景及定義 4:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘: Data Mining (DM)例:河南理工大學例:河南理工大學橫向(每屆):學生信息管理系統(tǒng)橫向(每屆):學生信息管理系統(tǒng)對應(yīng)數(shù)據(jù)對應(yīng)數(shù)據(jù)庫庫 圖書管理系統(tǒng)圖書管理系統(tǒng)對應(yīng)后臺數(shù)據(jù)庫對應(yīng)后臺數(shù)據(jù)庫 成績管理系統(tǒng)成績管理系統(tǒng)對應(yīng)后臺數(shù)據(jù)庫對應(yīng)后臺數(shù)據(jù)庫 課堂簽到系統(tǒng)課堂簽到系統(tǒng)對應(yīng)后臺數(shù)據(jù)庫對應(yīng)后臺數(shù)據(jù)庫 網(wǎng)絡(luò)管理系統(tǒng)網(wǎng)絡(luò)管理系統(tǒng)對應(yīng)后臺數(shù)據(jù)庫對應(yīng)后臺數(shù)據(jù)庫 畢業(yè)
2、設(shè)計系統(tǒng)畢業(yè)設(shè)計系統(tǒng)對應(yīng)后臺數(shù)據(jù)庫對應(yīng)后臺數(shù)據(jù)庫 1.數(shù)據(jù)倉庫的提出例:河南理工大學縱向(每屆):1909年 1910年 2015年 特點:上述數(shù)據(jù)庫只是處理在校學生的相應(yīng)數(shù)據(jù)(事務(wù)),大量的歷史數(shù)據(jù)一直在沉睡。問題: 分析學生的上網(wǎng)時間分布、圖書借閱情況、上課簽到情況與學生成績之間的聯(lián)系,從而為學校相關(guān)政策的制定提供必要的支持。1.數(shù)據(jù)倉庫的提出(1 1)“數(shù)據(jù)太多,信息不足數(shù)據(jù)太多,信息不足”的現(xiàn)狀的現(xiàn)狀 每一屆學生的相關(guān)數(shù)據(jù)匯總起來規(guī)模巨大,但很難提供我們想要的信息(2 2)異構(gòu)環(huán)境的數(shù)據(jù)的轉(zhuǎn)換和共享)異構(gòu)環(huán)境的數(shù)據(jù)的轉(zhuǎn)換和共享 許多應(yīng)用需要不同數(shù)據(jù)源(庫)中的信息,而不同數(shù)據(jù)源中信息的
3、表示又有很大的差別。一般情況下,來自不同數(shù)據(jù)源(庫)中的數(shù)據(jù)可能不匹配,也可能有部分數(shù)據(jù)是冗余的,或者格式不同。(3 3)利用數(shù)據(jù)進行數(shù)據(jù)處理轉(zhuǎn)換為利用數(shù)據(jù)支)利用數(shù)據(jù)進行數(shù)據(jù)處理轉(zhuǎn)換為利用數(shù)據(jù)支持決策持決策1.數(shù)據(jù)倉庫的提出數(shù)據(jù)庫用于事務(wù)處理數(shù)據(jù)庫用于事務(wù)處理數(shù)據(jù)庫作為數(shù)據(jù)資源用于管理業(yè)務(wù)中的事務(wù)處理。數(shù)據(jù)庫中存放的數(shù)據(jù)基本上是保存當前數(shù)據(jù),隨著業(yè)務(wù)的變化隨時在更新數(shù)據(jù)庫中的數(shù)據(jù)。不同的管理業(yè)務(wù)需要建立不同的數(shù)據(jù)庫。例如,銀行中儲蓄業(yè)務(wù)、信用卡業(yè)務(wù)分別要建立儲蓄數(shù)據(jù)庫和信用卡數(shù)據(jù)庫。1.數(shù)據(jù)倉庫的提出數(shù)據(jù)倉庫用于決策分析數(shù)據(jù)倉庫用于決策分析數(shù)據(jù)倉庫用于決策分析數(shù)據(jù)庫保持事務(wù)處理的當前狀態(tài),數(shù)
4、據(jù)倉庫既保存過去的數(shù)據(jù)又保存當前的數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)據(jù)是大量數(shù)據(jù)庫的集成對數(shù)據(jù)庫的操作比較明確,操作數(shù)據(jù)量少。對數(shù)據(jù)倉庫操作不明確,操作數(shù)據(jù)量大1.數(shù)據(jù)倉庫的提出數(shù)據(jù)庫與數(shù)據(jù)倉庫對比數(shù)據(jù)庫與數(shù)據(jù)倉庫對比1.數(shù)據(jù)倉庫的提出2:數(shù)據(jù)倉庫的應(yīng)用情況及前景20世紀90年代興起2000年以來,在中國發(fā)展迅速,各大領(lǐng)域分別啟動數(shù)據(jù)倉庫項目中國移動、淘寶、銀行、保險、旅游、氣象。2:數(shù)據(jù)倉庫的應(yīng)用情況及前景中國移動: 2003年,經(jīng)過激烈競爭,中國移動選中Teradata數(shù)據(jù)倉庫解決方案以開發(fā)其業(yè)務(wù)分析支持系統(tǒng)(BASS)項目,用以分析來自31個省級分支機構(gòu)和總公司的業(yè)務(wù)數(shù)據(jù),從而獲得縱覽企業(yè)全局的單一視圖,
5、以提高決策質(zhì)量,提高競爭優(yōu)勢。 用數(shù)據(jù)倉庫來尋找潛在用戶 中國移動建立BASS系統(tǒng) 比利時國家電信經(jīng)紀人使用數(shù)據(jù)倉庫建立的顧客信息系統(tǒng),其中數(shù)據(jù)倉庫擁有超過1萬億字節(jié)的數(shù)據(jù),包括四個多月的電話通信記錄。通過欺騙檢測功能,能夠很快發(fā)現(xiàn)反常電話以及欺騙性的打電話方式,并能在造成重大經(jīng)濟損失之前終止這種欺騙行為。2:數(shù)據(jù)倉庫的應(yīng)用情況及前景淘寶:淘寶自己的數(shù)據(jù)倉庫實施團隊淘寶于2004開始基于Oracle產(chǎn)品構(gòu)建企業(yè)級數(shù)據(jù)倉庫(EDW),并于2007年、2008年和2009年三次利用OracleRAC 10g和Oracle RAC 11g對數(shù)據(jù)倉庫系統(tǒng)進行了升級和擴充實現(xiàn)了數(shù)據(jù)處理和分析時效性的不斷
6、提升,過去需要數(shù)天才能完成的計算現(xiàn)在當天就能完成,部分以前屬于小時級別的計算更是提高到了分鐘級別。目前,淘寶數(shù)據(jù)倉庫能夠每天處理幾億次的用戶行為,日處理的數(shù)據(jù)量接近30TB,堪稱目前國內(nèi)每天數(shù)據(jù)處理量最大、最忙的數(shù)據(jù)倉庫。2:數(shù)據(jù)倉庫的應(yīng)用情況及前景銀行:2002年,招行選擇了業(yè)界著名廠商Sybase的數(shù)據(jù)倉庫系統(tǒng)。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在國際上早已成為商業(yè)銀行業(yè)快速發(fā)展、科學管理的平臺。根據(jù)美國META集團的調(diào)查,數(shù)據(jù)倉庫技術(shù)在美國金融業(yè)、制造業(yè)、商貿(mào)業(yè)以及社會服務(wù)業(yè)等方面都得到廣泛的應(yīng)用,已經(jīng)采用數(shù)據(jù)倉庫的企業(yè)的投資回報率均在40%以上,部分企業(yè)高達每年600%。目前,華爾街62的銀行、保
7、險、證券等機構(gòu)采用數(shù)據(jù)倉庫技術(shù)進行風險管理,其中包括著名的摩根斯坦利、花旗銀行、加拿大蒙特利爾銀行、加皇銀行等。數(shù)據(jù)倉庫服務(wù)器SybaseIQ、復制服務(wù)器ReplicationServer,以及其他相關(guān)軟件,幫助金融機構(gòu)進行風險的評估、預測以及防范等工作,從而使風險控制到最小。2:數(shù)據(jù)倉庫的應(yīng)用情況及前景氣象:2008年,國家氣象中心的預報系統(tǒng)開放實驗室研究氣象數(shù)據(jù)倉庫的建設(shè),目前已經(jīng)4年多,系統(tǒng)運行并不斷推廣。3:數(shù)據(jù)挖掘興起的背景及定義背景數(shù)據(jù)挖掘出現(xiàn)于20世紀80年代末,最早是在數(shù)據(jù)庫領(lǐng)域發(fā)展起來的,稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD,Knowledge Discovery in Datab
8、ase)。知識發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程。數(shù)據(jù)挖掘(DM) :KDD過程中的一個特定步驟,它用專門算 法從數(shù)據(jù)中抽取知識。 如在人類數(shù)據(jù)庫中挖掘知識為: (頭發(fā)=黑色)(眼睛=黑色)亞洲人 該知識覆蓋了所有亞州人的記錄。 3:數(shù)據(jù)挖掘背景及定義定義 目前還沒有一個完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義:SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進行數(shù)據(jù)探索和建立相關(guān)模型的先進方法”。Bhavani(1999):“使用模式識別技術(shù)、統(tǒng)計和數(shù)學技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找
9、有意義、有價值信息的過程”。根據(jù)以上定義,我們可以把數(shù)據(jù)挖掘理解為:數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)中挖掘出隱含在其中的、事先不為人知的、潛在的、有用信息和知識的技術(shù)。這些信息是可能有潛在價值的,是用戶感興趣的、可理解、可運用的,支持決策,可以為企業(yè)帶來利益,或者為科學研究尋找突破口。3:數(shù)據(jù)挖掘背景及定義功能數(shù)據(jù)挖掘綜合了各個學科技術(shù),有很多的功能,當前主要功能如下:(1)分類:按照分析對象的屬性、特征,建立不同的組類來描述事物。例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。(2)聚類:識別出分析對內(nèi)在的規(guī)
10、則,按照這些規(guī)則把對象分成若干類。例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。3:數(shù)據(jù)挖掘背景及定義功能功能(3)關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn):關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如:每天購買尿布的人也有可能購買啤酒,比重有多大,可以通過關(guān)聯(lián)的支持度和可信度來描述。與關(guān)聯(lián)不同,序列是一種縱向的聯(lián)系。例如:今天銀行調(diào)整利率,明天股市的變化。(4)預測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預見。例如:對未來經(jīng)濟發(fā)展的判斷。(5)偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營
11、,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風險。需要注意的是:數(shù)據(jù)挖掘的各項功能不是獨立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。4:4:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合區(qū)別數(shù)據(jù)倉庫是一種存儲技術(shù),它能適應(yīng)于不同用戶對不同決策需要提供所需的數(shù)據(jù)和信息。數(shù)據(jù)挖掘研究各種方法和技術(shù),從大量的數(shù)據(jù)中挖掘出有用的信息和知識。4:4:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合聯(lián)系數(shù)據(jù)倉庫與數(shù)據(jù)挖掘都是決策支持新技術(shù)。但它們有著完全不同的輔助決策方式。在數(shù)據(jù)倉庫系統(tǒng)的前端的分析工具中,數(shù)據(jù)挖掘是其中重要工具之一。它可以幫助決策用戶挖掘數(shù)據(jù)倉庫的數(shù)據(jù)中隱含的規(guī)律性。數(shù)據(jù)挖掘用于數(shù)據(jù)倉
12、庫實現(xiàn)決策支持: (1)預測客戶購買傾向; (2)客戶利潤貢獻度分析; (3)分析欺詐行為; (4)銷售渠道優(yōu)化分析等。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的結(jié)合對支持決策會起更大的作用。4:4:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的結(jié)合2015/7/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第1章數(shù)據(jù)倉庫的概念與體系結(jié)構(gòu)授課教師:晁浩2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘111.1 數(shù)據(jù)倉庫的概念、特點與組成一、概念數(shù) 據(jù) 倉 庫 就 是 一 個 面 向 主 題 的 ( SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,通常
13、用于輔助決策支持(DDS)。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘121.1 數(shù)據(jù)倉庫的概念、特點與組成二、特點:面向主題:指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點領(lǐng)域。典型的主題領(lǐng)域:客戶、產(chǎn)品、交易、賬目。集成的:數(shù)據(jù)抽取、清理、加工、匯總、整理相對穩(wěn)定的:通常一起載入數(shù)據(jù),不進行一般意義的數(shù)據(jù)更新;反映歷史變化:時間維概念何謂數(shù)據(jù)倉庫?一種面向分析的環(huán)境;一種把相關(guān)的各種數(shù)據(jù)轉(zhuǎn)換成有商業(yè)價值的信息的技術(shù)。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘13采購子系統(tǒng):訂單(訂單號,供應(yīng)商號,商品號,類別,單價。數(shù)量,總金額,日期, )供應(yīng)商(供應(yīng)商號,供應(yīng)商名,地址,電話,)銷售子系統(tǒng):客戶(客戶號,
14、姓名,地址,電話, )銷售(客戶號,商品號,數(shù)量,單價,日期, )庫存子系統(tǒng):進庫單(編號,商品號,數(shù)量,單價,日期, )出庫單(編號,商品號,數(shù)量,單價,日期, )庫存(商品號, 庫房號,類別,單價,庫存數(shù)量,總金額,日期, )商品主題域:商品固有信息:商品號,類別,單價,顏色,商品采購信息:商品號,類別,供應(yīng)商號,供應(yīng)日期,單價,數(shù)量,商品銷售信息:商品號,客戶號,數(shù)量,單價,銷售日期, 商品庫存信息:商品號, 庫房號,庫存數(shù)量,日期, )采購子系統(tǒng)銷售子系統(tǒng)庫存子系統(tǒng)數(shù)據(jù)倉庫中的數(shù)據(jù)組織數(shù)據(jù)倉庫中的數(shù)據(jù)分為四個級別:早期細節(jié)級,當前細節(jié)級,輕度綜合級,高度綜合級。19851998年銷售明
15、細表19982003年銷售明細表19982003年每月銷售表19982003年每季度銷售表2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘171.1 數(shù)據(jù)倉庫的概念、特點與組成三、數(shù)據(jù)倉庫的組成:數(shù)據(jù)倉庫數(shù)據(jù)庫:數(shù)據(jù)信息存取的場所,對數(shù)據(jù)提供存取和檢索功能。數(shù)據(jù)抽取工具:數(shù)據(jù)提取、轉(zhuǎn)化、整理、再存入數(shù)據(jù)倉庫。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘181.1 數(shù)據(jù)倉庫的概念、特點與組成三、數(shù)據(jù)倉庫的組成:一個數(shù)據(jù)倉庫的大小一般都是在100GB以上通常,數(shù)據(jù)倉庫系統(tǒng)應(yīng)該包含下列程序:(1)抽取數(shù)據(jù)與加載數(shù)據(jù)(2)整理并轉(zhuǎn)換數(shù)據(jù)(采用一種數(shù)據(jù)倉庫適用的數(shù)據(jù)格式)(3)備份與備存數(shù)據(jù)(4)管理所有查詢(即將查詢導向
16、適當?shù)臄?shù)據(jù)源 )2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘191.1 數(shù)據(jù)倉庫的概念、特點與組成三、數(shù)據(jù)倉庫的組成:元數(shù)據(jù)(Metadata):描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),是關(guān)于數(shù)據(jù)的數(shù)據(jù) 。元數(shù)據(jù)是描述數(shù)據(jù)倉庫中數(shù)據(jù)結(jié)構(gòu)和構(gòu)建方法的數(shù)據(jù)。分成技術(shù)元數(shù)據(jù)與業(yè)務(wù)元數(shù)據(jù);2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘20舉例2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘211.1 數(shù)據(jù)倉庫的概念、特點與組成三、數(shù)據(jù)倉庫的組成:訪問工具;數(shù)據(jù)集市(Data Marts):從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),即部門主題數(shù)據(jù)。數(shù)據(jù)倉庫管理;信息發(fā)布系統(tǒng)。數(shù)據(jù)挖掘的社會需求國民經(jīng)濟和社會的信息化國民經(jīng)濟和社會的信息化
17、社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn)社會信息化后,社會的運轉(zhuǎn)是軟件的運轉(zhuǎn) 社會信息化后,社會的歷史是數(shù)據(jù)的歷史社會信息化后,社會的歷史是數(shù)據(jù)的歷史1.2 數(shù)據(jù)挖掘的概念與方法2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘231.2 數(shù)據(jù)挖掘的概念與方法一、概念數(shù)據(jù)挖掘(Data Mining),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識,又被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discoveryin Database, KDD) 。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘241.2 數(shù)據(jù)挖掘的概念與方法一、概念數(shù)
18、據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價值在于利用數(shù)據(jù)挖掘技術(shù)改善預測模型。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘251.2 數(shù)據(jù)挖掘的概念與方法二、數(shù)據(jù)挖掘的方法:直接數(shù)據(jù)挖掘間接數(shù)據(jù)挖掘2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘261.2 數(shù)據(jù)挖掘的概念與方法三、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系若將數(shù)據(jù)倉庫(Data Warehouse)比作礦井,那么數(shù)據(jù)挖掘(Data Mining)就是深入礦井采礦的工作數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù)2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘271.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品一、聯(lián)機事務(wù)處理(OLTP)與聯(lián)機分
19、析處理(OLAP)的比較日常事務(wù)處理負責的分析操作,側(cè)重決策支持2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘291.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品二、聯(lián)機分析處理(OLAP)有關(guān)概念維:人們觀察數(shù)據(jù)的特定角度,從不同維屬性上的數(shù)據(jù)進行研究。例如,企業(yè)常常關(guān)心不同銷售數(shù)據(jù)隨時間的變化情況,所以時間就是一個維多維數(shù)據(jù)集度量值:描述了要分析的數(shù)值,例如話費、用戶數(shù)量等;Country數(shù)據(jù)立方體樣本全年度美國電視機的銷售量sumTVPCVCRsum1Qtr2QtrDate3Qtr4QtrU.S.ACanadaMexicosum2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘301.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品二、聯(lián)機分
20、析處理(OLAP)有關(guān)概念多維分析: OLAP對數(shù)據(jù)倉庫中數(shù)據(jù)的操作是針對多維數(shù)據(jù)視圖(又稱為超立方體)進行的。對立方體的典型操作包括:切片、切塊以及旋轉(zhuǎn)等。1.上卷(上鉆): 數(shù)據(jù)的匯總通過一個維的概念分層向上攀升或者通過維歸約來實現(xiàn)2.下鉆 (下卷): 上卷的逆操作通過沿維的概念分層由高粒度向下下鉆到低粒度的層次或者通過引入新的維來實現(xiàn)3.4.5.切片切塊旋轉(zhuǎn)選定多維數(shù)組的一個二維子集;選定多維數(shù)組的一個三維子集;改變一個立方體顯示的維方向,切片切塊旋轉(zhuǎn)地域地域產(chǎn)品年份圖2.1對超立方體的典型操作Product多維數(shù)據(jù)模型Month數(shù)據(jù)立方體sales中每格的度量可以看作是關(guān)聯(lián)Produc
21、t、Region和Month的函數(shù)涉及的維: Product, Location, Time屬性的層次結(jié)構(gòu)和格結(jié)構(gòu)Industry RegionYearCategory Country QuarterProductCityOfficeMonth WeekDay2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘341.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品二、聯(lián)機分析處理(OLAP)有關(guān)概念OLAP根據(jù)其存儲數(shù)據(jù)的方式可分為三類:ROLAP、MOLAP、HOLAPOLAP工具 通過多維方式對數(shù)據(jù)進行分析,查詢和報表2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘351.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品三、數(shù)據(jù)倉庫實施中的三個關(guān)鍵環(huán)
22、節(jié)數(shù)據(jù)抽取:涉及互連、復制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等方面。數(shù)據(jù)存儲與管理:大量數(shù)據(jù)、并行處理、數(shù)據(jù)表現(xiàn)2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘361.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品四、數(shù)據(jù)倉庫實施方法論數(shù)據(jù)倉庫不是簡單的數(shù)據(jù)或產(chǎn)品堆砌,它是一個綜合集成解決方案和系統(tǒng)工程。在數(shù)據(jù)倉庫的實施過程中,技術(shù)決策至關(guān)重要,技術(shù)選擇或決策錯誤很可能導致項目實施失敗2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘371.3 數(shù)據(jù)倉庫的技術(shù)、方法與產(chǎn)品五、常用數(shù)據(jù)倉庫產(chǎn)品比較常用OLAP工具介紹 ;各數(shù)據(jù)倉庫廠商提供的解決方案IBM、Oracle、NCR、Microsoft、SAS等常用的數(shù)據(jù)倉庫產(chǎn)品(請大家課后調(diào)研)ORA
23、CLE最新版本:11gOWB(Oracle Warehouse Builder)ODI (Oracle Data Integrator )BIEE-Business Intelligence EnterpriseEdition:前端展現(xiàn)工具IBMInfoSphere Warehouse :一款功能全面的數(shù)據(jù)倉庫平臺,提供了卓越的可伸縮性與可用性,以及設(shè)計、構(gòu)建、管理工具和業(yè)務(wù)分析功能。 InfoSphere Warehouse 由 DB2 提供支持 公司網(wǎng)址: Studio,包括數(shù)據(jù)倉庫的建模、數(shù)據(jù)抽取與轉(zhuǎn)換、數(shù)據(jù)存儲與管理、元數(shù)據(jù)管理以及可視化數(shù)據(jù)分析等工具。Warehouse Archit
24、ect、PowerStage、ReplicationServer、Carleton PASSPORT,PowerDimensions是圖形化的OLAP分析工具,它支持SMP和多維緩存技術(shù),能夠集成異構(gòu)的關(guān)系型數(shù)據(jù)倉庫和分布式數(shù)據(jù)集市公司網(wǎng)址:NCR Teradata高端數(shù)據(jù)倉庫市場最有力的競爭者,主要運行在NCR WorldMark SMP硬件的Unix操作系統(tǒng)平臺上Teradata數(shù)據(jù)倉庫在100GB、300GB、1TB和3TB級的TPCD指標測試中均創(chuàng)世界紀錄。但是,NCR產(chǎn)品的價格相對較高,中小企業(yè)用戶難以接受公司網(wǎng)址:InformixInformix產(chǎn)品能夠集成Microsoft II
25、S或Netscape Enterprise/FastTrack服務(wù)器,從而支持基于Web的數(shù)據(jù)倉庫應(yīng)用2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘431.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)一、數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)的分類( 1 ) 兩 層 架 構(gòu) ( GenericTwo-LevelArchitecture)。( 2 ) 獨 立 型 數(shù) 據(jù) 集 市 ( Independent DataMart)。( 3 )依賴型數(shù)據(jù)集市和操作型數(shù)據(jù)存儲( Dependent Data Mart and OperationalData Store)。(4)邏輯型數(shù)據(jù)集市和實時數(shù)據(jù)倉庫(LogicalData Mart and
26、Real-Time Data Warehouse)。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘44數(shù)據(jù)集市:1.數(shù)據(jù)集市的概念數(shù)據(jù)集市(Data Market)是一種更小、更集中的數(shù)據(jù)倉庫。簡單地說,原始數(shù)據(jù)從數(shù)據(jù)倉庫流入不同的部門以支持這些部門的定制化使用。這些部門級的數(shù)據(jù)庫就稱為數(shù)據(jù)集市。一個數(shù)據(jù)集市就是一個部門的數(shù)據(jù)集合。數(shù)據(jù)集市是為特定部門的決策支持而組織起來的一批數(shù)據(jù)和業(yè)務(wù)規(guī)則,習慣上稱它們?yōu)椤爸黝}域”。例如,財務(wù)部門有自己的數(shù)據(jù)集市,市場部門也有自己的數(shù)據(jù)集市,它們之間可能有關(guān)聯(lián),但相互不同且在本質(zhì)上互為獨立。獨立型數(shù)據(jù)集市: 數(shù)據(jù)來自一個或多個或外部信息提供者,或者來自在一個特定的部門
27、或地域局部產(chǎn)生的數(shù)據(jù)。依賴型數(shù)據(jù)集市: 數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫。目前,國內(nèi)還是依賴型的數(shù)據(jù)集市居多。兩者的區(qū)別就在于是否從一個中央數(shù)據(jù)倉庫而來。2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘45數(shù)據(jù)集市:3. 數(shù)據(jù)集市技術(shù)的體系結(jié)構(gòu)數(shù)據(jù)集市的數(shù)據(jù)源主要來自數(shù)據(jù)倉庫和其他數(shù)據(jù)源。實際上,如果先建數(shù)據(jù)集市,后建數(shù)據(jù)倉庫,則數(shù)據(jù)集市的數(shù)據(jù)就不能來自數(shù)據(jù)倉庫,因此在實際應(yīng)用中數(shù)據(jù)集市最主要的數(shù)據(jù)源來自業(yè)務(wù)數(shù)據(jù)庫。4. 數(shù)據(jù)集市技術(shù)實現(xiàn)方法數(shù)據(jù)集市分兩類:多層數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫提取轉(zhuǎn)換裝入OLAP服務(wù)器分析查詢報告數(shù)據(jù)挖掘監(jiān)控&匯總元數(shù)據(jù)前端工具輸出刷新數(shù)據(jù)集市操作數(shù)據(jù)庫外部信息源數(shù)據(jù)源數(shù)據(jù)存儲器OLAP服務(wù)器2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘461.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)二、獨立的數(shù)據(jù)倉庫體系結(jié)構(gòu)2012/11/6數(shù)據(jù)倉庫與數(shù)據(jù)挖掘471.4 數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年低碳城市規(guī)劃與城市綠化策略案例分析
- 3.3.2 服務(wù)業(yè)區(qū)位因素的變化課件 2023-2024學年高一地理人教版(2019)必修第二冊(41張)
- 2025年一級造價師之工程造價案例分析(土建+安裝)每日一練試卷B卷含答案
- 2025年新高二數(shù)學(人教A版暑假銜接)新課預習-2.1.2 兩條直線平行和垂直的判定(學生版)-新高二暑假銜接
- 《稅法實務(wù)》課件第五章 企業(yè)所得稅實務(wù)2
- 2025年傳統(tǒng)工業(yè)制造行業(yè)智能制造解決方案研究
- 《民航情景英語》課件Unit5
- 2019-2025年期貨從業(yè)資格之期貨法律法規(guī)押題練習試卷B卷附答案
- 畜牧獸醫(yī)檢測題目及答案
- 初中物理升旗題目及答案
- 初中學生學習生活內(nèi)容挫折困難人際交往情緒調(diào)節(jié)未來規(guī)劃
- 供應(yīng)商誠信廉潔問卷調(diào)查表
- 新部編版歷史八下全冊總復習課件
- 運用PDCA提高影像診斷與手術(shù)符合率演示文稿
- 花道-插花技藝養(yǎng)成智慧樹知到答案章節(jié)測試2023年云南林業(yè)職業(yè)技術(shù)學院
- 2022年重慶市中考地理試卷真題及答案詳解(初中學業(yè)水平考試)
- 當前國際形勢與兩岸關(guān)系課件
- 神經(jīng)外科術(shù)后并發(fā)癥觀察及護理課件整理
- 高一英語-必修三Unit-4-Reading-for-writing課件
- 藥店手繪POP基礎(chǔ)
- 腦卒中患者健康管理與隨訪檔案模板
評論
0/150
提交評論