數據倉庫與數據挖掘的決策支持專業課件_第1頁
數據倉庫與數據挖掘的決策支持專業課件_第2頁
數據倉庫與數據挖掘的決策支持專業課件_第3頁
數據倉庫與數據挖掘的決策支持專業課件_第4頁
數據倉庫與數據挖掘的決策支持專業課件_第5頁
已閱讀5頁,還剩121頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 數據倉庫與數據挖掘數據倉庫與數據挖掘 的決策支持的決策支持1歡迎下載 可修改n5.1.1 數據倉庫概念數據倉庫概念n5.1.2 數據倉庫結構數據倉庫結構n5.1.3 數據集市數據集市n5.1.4 元數據元數據2歡迎下載 可修改 (1 1)W.H.InmonW.H.Inmon在在建立數據倉庫建立數據倉庫一書中,對數據倉庫的定義為:一書中,對數據倉庫的定義為: 數據倉庫是面向數據倉庫是面向主題的主題的、集成的集成的、穩定的穩定的,不同時間不同時間的數據集合,用于支的數據集合,用于支持經營管理中持經營管理中決策制定決策制定過程。過程。3歡迎下載 可修改(2 2)SASSAS軟件研究所定義:軟件研究

2、所定義: 數據倉庫是一種數據倉庫是一種管理技術管理技術,旨在通過,旨在通過通暢通暢、合理合理、全面全面的信息管理,達到有的信息管理,達到有效的決策支持。效的決策支持。4歡迎下載 可修改 傳統數據庫用于事務處理,也叫傳統數據庫用于事務處理,也叫操作型處理操作型處理,是指對數據庫聯機進行日常操作,即對一個或一組記是指對數據庫聯機進行日常操作,即對一個或一組記錄的查詢和修改,主要為企業錄的查詢和修改,主要為企業特定的應用特定的應用服務的。用服務的。用戶關心的是響應時間,數據的安全性和完整性。戶關心的是響應時間,數據的安全性和完整性。 數據倉庫用于決策支持,也稱數據倉庫用于決策支持,也稱分析型處理分析

3、型處理,用于,用于決策分析,它是建立決策支持系統(決策分析,它是建立決策支持系統(DSSDSS)的基礎。)的基礎。5歡迎下載 可修改操作型數據(操作型數據(DBDB數據)與數據)與分析型數據(分析型數據(DWDW數據)之間的差別為:數據)之間的差別為:D DB B數數據據 D DW W數數據據 細細節節的的 綜綜合合或或提提煉煉的的 在在存存取取時時準準確確的的 代代表表過過去去的的數數據據 可可更更新新的的 不不更更新新 一一次次操操作作數數據據量量小小 一一次次操操作作數數據據量量大大 面面向向應應用用 面面向向分分析析 支支持持管管理理 支支持持決決策策 6歡迎下載 可修改 主題是數據主

4、題是數據歸類歸類的標準,每一個主題基本對應一的標準,每一個主題基本對應一個宏觀的分析領域。個宏觀的分析領域。 例如,銀行的數據倉庫的主題:客戶例如,銀行的數據倉庫的主題:客戶 DWDW的客戶數據來源:的客戶數據來源: 從從銀行儲蓄銀行儲蓄DBDB、信用卡、信用卡DBDB、貸款、貸款DBDB等三個等三個DBDB中抽中抽取同一客戶的數據整理而成。取同一客戶的數據整理而成。 在在DWDW中分析客戶數據,可決定是否繼續給予貸款中分析客戶數據,可決定是否繼續給予貸款7歡迎下載 可修改 數據進入數據倉庫之前,必須經過加工與集成數據進入數據倉庫之前,必須經過加工與集成對對不同的不同的數據來源進行統一數據結構

5、和編碼數據來源進行統一數據結構和編碼統一原始數據中的所有統一原始數據中的所有矛盾矛盾之處,如字段的之處,如字段的同名異義同名異義,異名同義異名同義,單位不統一,字長不,單位不統一,字長不一致等。一致等。 總之總之, ,將原始數據結構做一個從將原始數據結構做一個從面向應用面向應用到到面向主面向主題題的大轉變。的大轉變。8歡迎下載 可修改 數據倉庫中包括了大量的歷史數據。數據經集數據倉庫中包括了大量的歷史數據。數據經集成進入數據倉庫后是成進入數據倉庫后是極少極少或或根本根本不更新的。不更新的。 數據倉庫內的數據時限在數據倉庫內的數據時限在5 5 1010年,故數據的鍵年,故數據的鍵碼包含時間項,標

6、明數據的歷史時期,這適合碼包含時間項,標明數據的歷史時期,這適合DSSDSS進行進行時間趨勢分析時間趨勢分析。 數據庫只包含當前數據,即存取某一時間的正數據庫只包含當前數據,即存取某一時間的正確的有效的數據。確的有效的數據。9歡迎下載 可修改 大型大型DWDW是一個是一個TBTB(1000GB1000GB)級數據庫問題)級數據庫問題(一般為(一般為10GB10GB級相當于一般數據庫級相當于一般數據庫100MB100MB的的100100倍)倍) 需要一個巨大的硬件平臺需要一個并行的數據需要一個巨大的硬件平臺需要一個并行的數據庫系統庫系統. . 最好的數據倉庫是大的和昂貴的。最好的數據倉庫是大的和

7、昂貴的。10歡迎下載 可修改n9、 人的價值,在招收誘惑的一瞬間被決定。人的價值,在招收誘惑的一瞬間被決定。2022-3-132022-3-13Sunday, March 13, 2022n10、低頭要有勇氣,抬頭要有低氣。、低頭要有勇氣,抬頭要有低氣。2022-3-132022-3-132022-3-133/13/2022 5:46:02 AMn11、人總是珍惜為得到。、人總是珍惜為得到。2022-3-132022-3-132022-3-13Mar-2213-Mar-22n12、人亂于心,不寬余請。、人亂于心,不寬余請。2022-3-132022-3-132022-3-13Sunday, M

8、arch 13, 2022n13、生氣是拿別人做錯的事來懲罰自己。、生氣是拿別人做錯的事來懲罰自己。2022-3-132022-3-132022-3-132022-3-133/13/2022n14、抱最大的希望,作最大的努力。、抱最大的希望,作最大的努力。2022年年3月月13日星期日日星期日2022-3-132022-3-132022-3-13n15、一個人炫耀什么,說明他內心缺少什么。、一個人炫耀什么,說明他內心缺少什么。2022年年3月月2022-3-132022-3-132022-3-133/13/2022n16、業余生活要有意義,不要越軌。、業余生活要有意義,不要越軌。2022-3-

9、132022-3-13March 13, 2022n17、一個人即使已登上頂峰,也仍要自強不息。、一個人即使已登上頂峰,也仍要自強不息。2022-3-132022-3-132022-3-132022-3-13 近期基本數據:近期基本數據:是最近時期的業務數據,是數據倉庫用是最近時期的業務數據,是數據倉庫用戶戶最感興趣最感興趣的部分,數據量大。的部分,數據量大。 歷史基本數據:歷史基本數據:近期基本數據近期基本數據隨時間的推移,由數據倉隨時間的推移,由數據倉庫的庫的時間控制機制時間控制機制轉為歷史基本數據。轉為歷史基本數據。 輕度綜合數據:輕度綜合數據:是從是從近期基本數據近期基本數據中提取出的

10、,這層數中提取出的,這層數據是按時間段選取,或者按數據屬性(據是按時間段選取,或者按數據屬性(attributesattributes)和內容)和內容(contentscontents)進行綜合。)進行綜合。 高度綜合數據層:高度綜合數據層:這一層的數據是在這一層的數據是在輕度綜合數據輕度綜合數據基礎基礎上的再一次綜合,是一種準決策數據。上的再一次綜合,是一種準決策數據。12歡迎下載 可修改n9、 人的價值,在招收誘惑的一瞬間被決定。人的價值,在招收誘惑的一瞬間被決定。2022-3-132022-3-13Sunday, March 13, 2022n10、低頭要有勇氣,抬頭要有低氣。、低頭要有

11、勇氣,抬頭要有低氣。2022-3-132022-3-132022-3-133/13/2022 5:46:02 AMn11、人總是珍惜為得到。、人總是珍惜為得到。2022-3-132022-3-132022-3-13Mar-2213-Mar-22n12、人亂于心,不寬余請。、人亂于心,不寬余請。2022-3-132022-3-132022-3-13Sunday, March 13, 2022n13、生氣是拿別人做錯的事來懲罰自己。、生氣是拿別人做錯的事來懲罰自己。2022-3-132022-3-132022-3-132022-3-133/13/2022n14、抱最大的希望,作最大的努力。、抱最大

12、的希望,作最大的努力。2022年年3月月13日星期日日星期日2022-3-132022-3-132022-3-13n15、一個人炫耀什么,說明他內心缺少什么。、一個人炫耀什么,說明他內心缺少什么。2022年年3月月2022-3-132022-3-132022-3-133/13/2022n16、業余生活要有意義,不要越軌。、業余生活要有意義,不要越軌。2022-3-132022-3-13March 13, 2022n17、一個人即使已登上頂峰,也仍要自強不息。、一個人即使已登上頂峰,也仍要自強不息。2022-3-132022-3-132022-3-132022-3-13 元數據元數據: :整個數

13、據倉庫的組織結構由元數據組織整個數據倉庫的組織結構由元數據組織, ,它不包含它不包含數據倉庫中的數據倉庫中的實際數據信息實際數據信息。 作用:作用: (1 1)定位數據倉庫的目錄內容)定位數據倉庫的目錄內容 (2 2)數據從)數據從業務環境業務環境向向數據倉庫環境數據倉庫環境傳遞時數據倉庫的傳遞時數據倉庫的目錄內容目錄內容 (3 3)指導從)指導從當前基本數據當前基本數據到到輕度綜合數據輕度綜合數據到到高度綜合數高度綜合數據據的綜合算法的選擇。的綜合算法的選擇。 組成:組成: (1 1)數據結構)數據結構 (2 2)用于綜合的算法)用于綜合的算法 (3 3)從業務環境到)從業務環境到DWDW規

14、劃規劃14歡迎下載 可修改 元元數數據據 高高度度綜綜合合數數據據輕輕度度綜綜合合數數據據當當前前基基本本數數據據歷歷史史數數據據層層 數據倉庫結構圖數據倉庫結構圖15歡迎下載 可修改1.1.數據集市的產生數據集市的產生n數據倉庫工作范圍和成本常常是巨大的。開發數據倉庫工作范圍和成本常常是巨大的。開發數據庫是數據庫是代價很高代價很高、時間較長時間較長的大項目。提供的大項目。提供更緊密集成的數據集市就應運產生。更緊密集成的數據集市就應運產生。n目前,全世界對數據倉庫目前,全世界對數據倉庫總投資的一半總投資的一半以上均以上均集中在數據集市上。集中在數據集市上。16歡迎下載 可修改n數據集市(數據集

15、市(Data MartsData Marts)是一種)是一種更小更小、更集中更集中的的數據倉庫,為公司提供分析商業數據的一條廉價數據倉庫,為公司提供分析商業數據的一條廉價途徑。途徑。n數據集市是指具有數據集市是指具有特定應用特定應用的數據倉庫,主要針的數據倉庫,主要針對某個應用或者具體部門級的應用,支持用戶獲對某個應用或者具體部門級的應用,支持用戶獲得競爭優勢或者找到進入新市場的具體解決方案得競爭優勢或者找到進入新市場的具體解決方案2.數據集市概念數據集市概念17歡迎下載 可修改3.數據集市與數據倉庫的數據集市與數據倉庫的關系關系n數據集市不等于數據倉庫,多個數據集市簡單合數據集市不等于數據倉

16、庫,多個數據集市簡單合并起來不能成為數據倉庫。并起來不能成為數據倉庫。n各數據集市之間對詳細數據和歷史數據的存儲各數據集市之間對詳細數據和歷史數據的存儲存在大存在大量冗余量冗余。n同一個問題在不同的數據集市的查詢結果同一個問題在不同的數據集市的查詢結果可能不一致,可能不一致,甚至互相矛盾。甚至互相矛盾。n各數據集市之間以及與源數據庫系統之間各數據集市之間以及與源數據庫系統之間難以管理難以管理。18歡迎下載 可修改 1 1、規模小、規模小2 2、特定的應用、特定的應用3 3、面向部門、面向部門4 4、由業務部門定義,設計和開發、由業務部門定義,設計和開發5 5、由業務部門管理和維護、由業務部門管

17、理和維護6 6、快速實現、快速實現7 7、購買較便宜、購買較便宜8 8、投資快速回收、投資快速回收9 9、工具集的緊密集成、工具集的緊密集成1010、更詳細的、預先存在的數據倉庫的摘要子集、更詳細的、預先存在的數據倉庫的摘要子集1111、可升級到完整的數據倉庫、可升級到完整的數據倉庫4.數據集市的特性數據集市的特性19歡迎下載 可修改5.兩種數據集市結構兩種數據集市結構 從屬:從屬:20歡迎下載 可修改5.兩種數據集市結構兩種數據集市結構獨立數據集市獨立數據集市(Independent Data Mart) 獨立:獨立:21歡迎下載 可修改6.數據集市與數據倉庫的數據集市與數據倉庫的差別差別n

18、數據倉庫是基于數據倉庫是基于整個企業整個企業的數據模型建立的,它面向企業的數據模型建立的,它面向企業范圍的主題;范圍的主題;n數據集市是按照數據集市是按照某一特定部門某一特定部門的數據模型建立的,由于每的數據模型建立的,由于每個部門有自己特定的需求,因此,對他們對數據集市的期個部門有自己特定的需求,因此,對他們對數據集市的期望也不一樣,也稱作部門級數據倉庫望也不一樣,也稱作部門級數據倉庫n部門的主題與企業的主題之間可能存在關聯,也可能不存部門的主題與企業的主題之間可能存在關聯,也可能不存在關聯。在關聯。n數據集市的數據組織一般采用星形模型,大型數據倉庫的數據集市的數據組織一般采用星形模型,大型

19、數據倉庫的數據組織采用第三范式。數據組織采用第三范式。22歡迎下載 可修改 元數據元數據是數據倉庫的重要組成部分。元數據描是數據倉庫的重要組成部分。元數據描述了數據倉庫的數據和環境,即述了數據倉庫的數據和環境,即最新數據的數據最新數據的數據(meta data)(meta data)。元數據元數據就相當于數據庫系統中的就相當于數據庫系統中的數數據字典據字典 元數據包括四種元數據元數據包括四種元數據最新最新數據源數據源的元數據的元數據最新最新數據模型數據模型的元數據的元數據最新最新數據倉庫映射數據倉庫映射的元數據的元數據最新最新數據倉庫使用數據倉庫使用的元數據的元數據5.1.4 元數據元數據23

20、歡迎下載 可修改 它是現有的業務系統的數據源的描述信息。這它是現有的業務系統的數據源的描述信息。這類元數據是對類元數據是對不同平臺不同平臺上的數據源的上的數據源的物理結構物理結構和和含含義義的的描述描述。具體為:。具體為: (1 1)數據源中所有物理數據結構,包括所有的數據項及)數據源中所有物理數據結構,包括所有的數據項及數據類型。數據類型。 (2 2)所有數據項的業務定義。)所有數據項的業務定義。 (3 3)每個數據項更新的頻率,以及由誰或哪個過程更新)每個數據項更新的頻率,以及由誰或哪個過程更新的說明。的說明。 (4 4)每個數據項的有效值。)每個數據項的有效值。1 1、最新、最新數據源數

21、據源的元數據的元數據24歡迎下載 可修改 這類元數據描述了數據倉庫中有什么數據以及這類元數據描述了數據倉庫中有什么數據以及數據之間的關系數據之間的關系, ,它們是用戶使用管理數據倉庫的它們是用戶使用管理數據倉庫的基礎。這類元數據可以基礎。這類元數據可以支持用戶支持用戶從數據倉庫中從數據倉庫中獲取獲取數據。數據。 數據倉庫的數據模型是星型模型。數據倉庫的數據模型是星型模型。 通常通常企業數據模型企業數據模型被用作建立倉庫數據模型的被用作建立倉庫數據模型的起始點起始點,再對模型加以修改和變換。,再對模型加以修改和變換。2 2、最新、最新數據模型數據模型的元數據的元數據25歡迎下載 可修改 這類元數

22、據是數據源與數據倉庫數據間的這類元數據是數據源與數據倉庫數據間的映射。映射。 當數據源中的一個數據項與數據倉庫建立了映射當數據源中的一個數據項與數據倉庫建立了映射關系,就應該記下這些數據項發生的任何變換或變動。關系,就應該記下這些數據項發生的任何變換或變動。即用元數據反映數據倉庫中的數據項是從哪個特定的即用元數據反映數據倉庫中的數據項是從哪個特定的數據源填充的,經過那些轉換、變換和加載過程數據源填充的,經過那些轉換、變換和加載過程3 3、最新、最新數據倉庫映射數據倉庫映射的元數據的元數據26歡迎下載 可修改3、最新、最新數據倉庫映射數據倉庫映射的元數據的元數據n一個抽取要經過以下幾個步聚一個抽

23、取要經過以下幾個步聚n獲取獲取n過濾過濾n驗證驗證n融合融合n綜合綜合n裝載裝載n存檔存檔 從源系統的數據到數據倉庫中從源系統的數據到數據倉庫中的目標數據的轉移是一項復雜的工的目標數據的轉移是一項復雜的工作,其工作量占整個數據倉庫開發作,其工作量占整個數據倉庫開發的的70%27歡迎下載 可修改 這類元數據是數據倉庫中信息的使用情況描述。這類元數據是數據倉庫中信息的使用情況描述。 數據倉庫的用戶最關心的是兩類元數據:數據倉庫的用戶最關心的是兩類元數據: (1 1)元數據告訴數據倉庫中有什么數據,它們從哪里來。)元數據告訴數據倉庫中有什么數據,它們從哪里來。即即如何按主題查看數據倉庫的內容如何按主

24、題查看數據倉庫的內容。 (2 2)元數據提供)元數據提供已有的可重復利用的查詢語言信息已有的可重復利用的查詢語言信息。如。如果某個查詢能夠滿足他們的需求,或者與他們的愿望相似,果某個查詢能夠滿足他們的需求,或者與他們的愿望相似,他們就可以再次使用那些查詢而不必從頭開始編程。他們就可以再次使用那些查詢而不必從頭開始編程。 最新數據倉庫使用的元數據能幫助用戶到數據倉庫查詢最新數據倉庫使用的元數據能幫助用戶到數據倉庫查詢所需要的信息,用于解決企業問題。所需要的信息,用于解決企業問題。數據倉庫使用數據倉庫使用28歡迎下載 可修改 5.2.1數據倉庫系統結構數據倉庫系統結構 數據倉庫系統由數據倉庫(數據

25、倉庫系統由數據倉庫(DWDW)、倉庫管理和分析工具三部分組成)、倉庫管理和分析工具三部分組成29歡迎下載 可修改(1 1)定義部分)定義部分 用于定義和建立數據倉庫系統。它包括:用于定義和建立數據倉庫系統。它包括:設計和定義數據倉庫的數據庫設計和定義數據倉庫的數據庫定義數據來源定義數據來源確定從源數據向數據倉庫復制數據時的清理和增確定從源數據向數據倉庫復制數據時的清理和增強規則強規則(2 2)數據獲取部分)數據獲取部分 該部件把數據從源數據中提取出來,依定義部件的該部件把數據從源數據中提取出來,依定義部件的規則,抽取、轉化和裝載數據進入數據倉庫。規則,抽取、轉化和裝載數據進入數據倉庫。 30歡

26、迎下載 可修改(3 3)管理部分)管理部分 它用于管理數據倉庫的工作,包括:它用于管理數據倉庫的工作,包括:對數據倉庫中數據的維護對數據倉庫中數據的維護把倉庫數據送出給分散的倉庫服務器或把倉庫數據送出給分散的倉庫服務器或DSSDSS用用戶戶對倉庫數據的安全、歸檔、備份、恢復等處理對倉庫數據的安全、歸檔、備份、恢復等處理工作工作31歡迎下載 可修改(4 4)信息目錄部件(元數據)信息目錄部件(元數據) 數據倉庫的目錄數據是元數據,由三部分組成:數據倉庫的目錄數據是元數據,由三部分組成: 技術目錄:技術目錄:由定義部件生成,最新數據源、目標、清理規由定義部件生成,最新數據源、目標、清理規則、變換規

27、則以及數據源和倉庫之間的映象信息。則、變換規則以及數據源和倉庫之間的映象信息。 業務目錄:業務目錄:由倉庫管理員生成,最新倉庫數據的來源及當由倉庫管理員生成,最新倉庫數據的來源及當前值;預定義的查詢和報表細節;合法性要求等。前值;預定義的查詢和報表細節;合法性要求等。 信息引導器:信息引導器:使用戶容易訪問倉庫數據。利用固定查詢或使用戶容易訪問倉庫數據。利用固定查詢或建立新的查詢,生成暫時的或永久的倉庫數據集合的能力等。建立新的查詢,生成暫時的或永久的倉庫數據集合的能力等。(5 5)DBMSDBMS部分部分 DWDW的存儲形式仍為關系型數據庫。的存儲形式仍為關系型數據庫。32歡迎下載 可修改

28、分析工具集分兩類工具:分析工具集分兩類工具:(1 1)查詢工具)查詢工具 數據倉庫的查詢不是指對記錄級數據的查數據倉庫的查詢不是指對記錄級數據的查詢,而是指對分析要求的查詢。詢,而是指對分析要求的查詢。 一般包含:一般包含: 可視化工具:可視化工具:以圖形化方式展示數據,可以圖形化方式展示數據,可以幫助了解數據的結構、關系以及動態性。以幫助了解數據的結構、關系以及動態性。33歡迎下載 可修改 多維分析工具(OLAP工具): 通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,這樣便利用戶對數據進行深入的分析和觀察。 多維數據的每一維代表對數據的一個特定的觀察視角,如時間、地域、業務等。

29、34歡迎下載 可修改(2 2)數據挖掘工具)數據挖掘工具 從大量數據中挖掘具有規律性知識,需要利用數據挖掘(Data Mining)工具。35歡迎下載 可修改 數據倉庫應用是一個典型的客戶數據倉庫應用是一個典型的客戶/ /服務器(服務器(C/SC/S)結構形式)結構形式 數據倉庫采用服務器結構,客戶端所做的工作有:客戶交數據倉庫采用服務器結構,客戶端所做的工作有:客戶交互、格式化查詢、結果顯示、報表生成等?;?、格式化查詢、結果顯示、報表生成等。 服務器端完成各種輔助決策的服務器端完成各種輔助決策的SQLSQL查詢、復雜的計算和各查詢、復雜的計算和各類綜合功能等。類綜合功能等。 現在,越來越普通

30、的一種形式是三層現在,越來越普通的一種形式是三層C/SC/S結構形式,即在結構形式,即在客戶與數據倉庫服務器之間增加一個多維數據分析(客戶與數據倉庫服務器之間增加一個多維數據分析(OLAPOLAP)服務器。服務器。36歡迎下載 可修改客 戶 端OLAP 服 務 器數 據 倉 庫服 務 器 OLAPOLAP服務器將服務器將加強加強和和規范化規范化決策支持的服務工決策支持的服務工作,集中和簡化了原客戶端和數據倉庫服務器的部作,集中和簡化了原客戶端和數據倉庫服務器的部分工作,分工作,降低了系統數據傳輸量降低了系統數據傳輸量。 這種結構形式工作效率更高。這種結構形式工作效率更高。37歡迎下載 可修改n

31、數據倉庫存儲采用多維數據模型。數據倉庫存儲采用多維數據模型。n維就是相同類數據的集合,商店、時間和產品都是維維就是相同類數據的集合,商店、時間和產品都是維n兩維表,如通常的電子表格。三維構成立方體,若再兩維表,如通常的電子表格。三維構成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出增加一維,則圖形很難想象,也不容易在屏幕上畫出來。來。38歡迎下載 可修改n數據倉庫是以多維表型的數據倉庫是以多維表型的“維表維表事實表事實表”結構結構形式組織的,共有三種形式:形式組織的,共有三種形式:n1 1、星型模型、星型模型n大多數的數據倉庫都采用大多數的數據倉庫都采用“星型模型星型模型”。星型模

32、型是由。星型模型是由“事實表事實表”(大(大表)以及多個表)以及多個“維表維表”(小表)所組成。(小表)所組成。39歡迎下載 可修改40歡迎下載 可修改n2、雪花模型、雪花模型n雪花模型是對星型模型的擴展,雪花模型對星型模型的雪花模型是對星型模型的擴展,雪花模型對星型模型的維表進一步層次化,維表進一步層次化,原來的各維表可能被擴展為小的事原來的各維表可能被擴展為小的事實表實表,形成一些局部的,形成一些局部的“層次層次”區域。區域。n它的優點是最大限度地它的優點是最大限度地減少減少數據存儲量,以及把數據存儲量,以及把較小較小的的維表聯合在一起來改善查詢性能。維表聯合在一起來改善查詢性能。n在上面

33、星型模型的數據中在上面星型模型的數據中 ,對,對“產品表產品表”“”“日期日期表表”“”“地區表地區表”進行擴展形成雪花模型數據見下圖。進行擴展形成雪花模型數據見下圖。41歡迎下載 可修改42歡迎下載 可修改n3、星網模型、星網模型n星網模型是將多個星型模型連接起來形成網狀結構。星網模型是將多個星型模型連接起來形成網狀結構。多個星型模型通過相同的維,如時間維,連接多個多個星型模型通過相同的維,如時間維,連接多個事實表。事實表。43歡迎下載 可修改第(第(2 2)部分)部分 5.3 5.3 聯機分析處理(聯機分析處理(OLAPOLAP) 5.4 5.4 數據倉庫的決策支持數據倉庫的決策支持44歡

34、迎下載 可修改n聯機分析處理(聯機分析處理(On Line Analytical Processing,OLAP)的概念最早是由關系數據庫之父的概念最早是由關系數據庫之父E.F.Codd(科科德德)于于1993年提出的。年提出的。n在數據倉庫系統中,聯機分析處理是重要的數據分析在數據倉庫系統中,聯機分析處理是重要的數據分析工具工具。nOLAP的基本思想是從的基本思想是從多方面多方面和和多角度多角度以多維的形式來以多維的形式來觀察企業的狀態和了解企業的變化。觀察企業的狀態和了解企業的變化。45歡迎下載 可修改5.3.1 基本概念nOLAP是在是在OLTP(聯機事務處理系統聯機事務處理系統 )的基

35、礎上發展起來的基礎上發展起來的。的。nOLTP是以數據庫為基礎的,面對的是操作人員和低層管是以數據庫為基礎的,面對的是操作人員和低層管理人員,對基本數據的查詢和增、刪、改等進行處理。理人員,對基本數據的查詢和增、刪、改等進行處理。nOLAP是以數據倉庫為基礎的數據分析處理。它有兩個特是以數據倉庫為基礎的數據分析處理。它有兩個特點:點:n一是在線性(一是在線性(On Line),由客戶機),由客戶機/服務器這種體系結構來完成服務器這種體系結構來完成的;的;n二是多維分析,這也是二是多維分析,這也是OLAP的核心所在。的核心所在。46歡迎下載 可修改n聯機分析處理是共享多維信息的快速分析。聯機分析

36、處理是共享多維信息的快速分析。n它體現了四個特征:它體現了四個特征:n(1)快速性)快速性:用戶對:用戶對OLAP的快速反應能力有很高的的快速反應能力有很高的要求。要求。 n(2)可分析性)可分析性:OLAP系統應能處理任何邏輯分析和系統應能處理任何邏輯分析和統計分析。統計分析。 n(3)多維性)多維性:系統必須提供對數據分析的多維視圖和:系統必須提供對數據分析的多維視圖和分析。分析。n(4)信息性)信息性:OLAP系統應能及時獲得信息,并且管系統應能及時獲得信息,并且管理大容量的信息。理大容量的信息。 47歡迎下載 可修改 n1993年,年,E.F.Codd提出提出OLAP的的12條準則,條

37、準則,其主要的準則有:其主要的準則有: 1)多維數據分析;)多維數據分析; 2)客戶)客戶/服務器結構;服務器結構; 3)多用戶支持;)多用戶支持; 4)一致的報表性能等。)一致的報表性能等。 48歡迎下載 可修改 n多維概念視圖多維概念視圖n企業的數據空間本身就是多維的。因此企業的數據空間本身就是多維的。因此OLAP的概念模型也應是多維的。的概念模型也應是多維的。n用戶可以對多維數據模型進行用戶可以對多維數據模型進行切片、切塊、切片、切塊、旋轉坐標或進行多維的聯合旋轉坐標或進行多維的聯合(概括和聚集)(概括和聚集)分析。分析。49歡迎下載 可修改n 穩定的報表性能穩定的報表性能n報表操作報表

38、操作不應不應隨維數增加而削弱,即當數據隨維數增加而削弱,即當數據維數和數據的綜合層次增加時,維數和數據的綜合層次增加時,提供的報表提供的報表能力和響應速度不應該有明顯的降低能力和響應速度不應該有明顯的降低。 50歡迎下載 可修改n 客戶客戶/服務器體系結構服務器體系結構 nOLAP是建立在客戶是建立在客戶/ 服務器體系結構上的。服務器體系結構上的。n要求多維數據庫服務器能夠被不同的應用和要求多維數據庫服務器能夠被不同的應用和工具所訪問。工具所訪問。 51歡迎下載 可修改n 多用戶支持多用戶支持 n當多個用戶要在同一分析模式上并行工作,需當多個用戶要在同一分析模式上并行工作,需要這些功能的支持。

39、要這些功能的支持。n靈活的報表生成靈活的報表生成 n報表必須報表必須充分反映充分反映數據分析模型的數據分析模型的多維特征多維特征,并可按用戶需要的方式來顯示它。并可按用戶需要的方式來顯示它。 52歡迎下載 可修改nOLAP是針對特定問題的聯機數據訪問和分析。是針對特定問題的聯機數據訪問和分析。 n (1)變量)變量 :變量是數據的實際意義,即描述數據:變量是數據的實際意義,即描述數據“是什么是什么”。 n (2)維)維:維是人們觀察數據的特定角度。如產品維、:維是人們觀察數據的特定角度。如產品維、顧客維、時間維等。顧客維、時間維等。 n (3)維的層次)維的層次:數據的細節不同程度為維的層次。

40、:數據的細節不同程度為維的層次。如日、月、季、年是時間維的層次。如日、月、季、年是時間維的層次。 n (4)維成員)維成員:維的一個取值稱為該維的一個維成員。:維的一個取值稱為該維的一個維成員。如如“某年某月某日某年某月某日”是時間維的一個成員。是時間維的一個成員。 53歡迎下載 可修改n5)多維數組)多維數組:一個多維數組可以表示為:一個多維數組可以表示為:n(6)數據單元(單元格)數據單元(單元格):54歡迎下載 可修改n(1)OLTP (聯機事務處理系統聯機事務處理系統 )nOLTP是低層人員利用計算機網絡對數據庫中是低層人員利用計算機網絡對數據庫中的數據進行查詢、增、刪、改等操作,以完

41、成的數據進行查詢、增、刪、改等操作,以完成事務處理工作。事務處理工作。nOLTP利用數據庫快速地處理具體業務。利用數據庫快速地處理具體業務。OLTP應用要求多個查詢并行。應用要求多個查詢并行。 55歡迎下載 可修改n(2)OLAPnOLAP是高層人員對數據倉庫進行信息分析處理。是高層人員對數據倉庫進行信息分析處理。56歡迎下載 可修改(3)OLAP與與OLTP對比(對比表)對比(對比表)OLTPOLAP數據庫數據數據庫數據數據倉庫數據數據倉庫數據細節性數據細節性數據綜合性數據綜合性數據當前數據當前數據歷史數據歷史數據一次性處理的數據量小一次性處理的數據量小一次處理的數據量大一次處理的數據量大對

42、響應時間要求高對響應時間要求高響應時間合理響應時間合理用戶數量大用戶數量大用戶相對較少用戶相對較少面向應用,事務驅動面向應用,事務驅動面向分析,分析驅動面向分析,分析驅動57歡迎下載 可修改 nMOLAP(MOLAP(多維多維OLAP)OLAP)和和ROLAP(ROLAP(關系關系OLAP)OLAP)是是OLAPOLAP的兩的兩種具體形式:種具體形式: nROLAPROLAP是基于是基于關系數據庫關系數據庫存儲方式建立的存儲方式建立的OLAPOLAP。多維數。多維數據映射成平面型的關系表。采用星型模型。據映射成平面型的關系表。采用星型模型。nMOLAPMOLAP是基于是基于多維數據庫多維數據庫

43、存儲方式建立的存儲方式建立的OLAPOLAP;表現為;表現為“超立方超立方”結構,類似于多維數組的結構。結構,類似于多維數組的結構。58歡迎下載 可修改MOLAPMOLAP和和ROLAPROLAP的對比表的對比表MOLAPMOLAPROLAPROLAP固定維固定維可變維可變維維交叉計算維交叉計算多維視圖多維視圖行級計算行級計算超大型數據庫超大型數據庫讀讀- -寫應用寫應用維數據變化速度快維數據變化速度快數據集市數據集市數據倉庫數據倉庫59歡迎下載 可修改例如,以例如,以“產品、城市、時間產品、城市、時間”三維數據,如三維數據,如圖圖時間城市產品電視機電冰箱廣州上海9596 60歡迎下載 可修改

44、 對三維數據,通過對三維數據,通過“切片切片” ” ,分別從城市和產,分別從城市和產品等不同的角度觀察銷售情況:品等不同的角度觀察銷售情況: 電視機電冰箱廣州上海61歡迎下載 可修改鉆取鉆取:例如,:例如,19951995年各部門銷售收入表如下:年各部門銷售收入表如下:62歡迎下載 可修改對時間維進行下鉆操作,獲得新表如下:對時間維進行下鉆操作,獲得新表如下:63歡迎下載 可修改1995年1996年部 門1季 度 2季 度 3季 度 4季 度 1季 度 2季 度 3季 度 4季 度部 門1200200350150120200250140部 門225050150150200180230120部

45、門3200150180270180200170250旋轉前的數據旋轉前的數據64歡迎下載 可修改1季度2季度3季度4季度部門95年96年95年96年95年96年95年96年部門1200120200200350250150140部門225020050180150230150120部門3200180150200180170270250旋轉后的數據旋轉后的數據65歡迎下載 可修改1季度2季度3季度4季度年齡95年96年95年96年95年96年95年96年2010060805010050504050 x20300230110250270330200220502502102102803102703202

46、50旋轉后再切片旋轉后再切片66歡迎下載 可修改 假設有一個假設有一個5 5維數據模型,維數據模型,5 5個維分別為:商店,個維分別為:商店,方案,部門,時間,銷售。方案,部門,時間,銷售。 1 1三維表查詢三維表查詢 在指定在指定“商店商店=ALL=ALL,方案,方案= =現有現有”情況的三維情況的三維表(行為部門,列為時間和銷售量)表(行為部門,列為時間和銷售量) 67歡迎下載 可修改 19941995%增長率銷售量利潤增長%銷售量利潤增長%銷售量利潤增長服裝234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽車37

47、5,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9 68歡迎下載 可修改 19941995%增長率增長率銷售銷售利潤增利潤增長長%銷售銷售利潤增利潤增長長%銷售銷售利潤增利潤增長長汽車汽車375,09822.4325,40227.2(13.2)21.4維修維修195,05114.2180,78615.0(7.3)5.6附件附件116,28043.9122,545音樂音樂63,7678.222,07114.2(63.4)7.3 對汽車部門向下鉆取出具體項目的銷售情況和對汽車部門向下鉆取出具體項目的銷售

48、情況和利潤增長情況。利潤增長情況。 69歡迎下載 可修改 1995Sales服裝服裝381,102家具家具66,005汽車汽車325,402所有其它所有其它306,677 切片(切片(SliceSlice)操作是除去一些列或行不顯示)操作是除去一些列或行不顯示 70歡迎下載 可修改 1995銷售量銷售量現有現有計劃計劃差量差量差量差量%服裝服裝381,102350,00031,1028.9家具家具66,00569,000(2,995)(4.3)汽車汽車325,402300,00025,4028.5所有其它所有其它306,677350,000(44,322)12.7 這次旋轉操作得到這次旋轉操作

49、得到19951995年的交叉表方案為:現年的交叉表方案為:現有、計劃、有、計劃、 差量、差量差量、差量% %。71歡迎下載 可修改n美國著名的美國著名的NCR數據倉庫公司對數據倉庫總結數據倉庫公司對數據倉庫總結5種決策支持能力。種決策支持能力。n 1、報表、報表 n 2、隨機分析、隨機分析n 3、預測、預測n 4、實時決策、實時決策n 5、事件觸發的自動決策、事件觸發的自動決策72歡迎下載 可修改n數據倉庫所面臨的數據倉庫所面臨的最大挑戰是數據集成最大挑戰是數據集成。傳統。傳統的環境經常有上百個數據源,每一數據源都有的環境經常有上百個數據源,每一數據源都有各自定義的標準和實施技術。各自定義的標

50、準和實施技術。 n建立的數據倉庫是通過收集各種來源的數據,建立的數據倉庫是通過收集各種來源的數據,來來回答預先設置的一些問題,告訴決策者回答預先設置的一些問題,告訴決策者“發發生了什么生了什么”。它為以后數據倉庫的發展奠定了。它為以后數據倉庫的發展奠定了基礎?;A。 73歡迎下載 可修改n數據倉庫應用的第二種決策支持是,數據倉庫應用的第二種決策支持是,從從“發生發生了什么了什么”轉向轉向“為什么會發生為什么會發生”。分析活動就分析活動就是了解報表數據的涵義,需要更多更詳細的數是了解報表數據的涵義,需要更多更詳細的數據進行各種角度的分析。在第二階段的數據倉據進行各種角度的分析。在第二階段的數據倉

51、庫主要用于隨機分析。庫主要用于隨機分析。 74歡迎下載 可修改3 3、預測、預測n數據倉庫的第三種決策支持是幫助決策者來預數據倉庫的第三種決策支持是幫助決策者來預測未來,測未來,回答回答“將要發生什么將要發生什么”。n數據倉庫需要利用歷史資料創建預測模型。數據倉庫需要利用歷史資料創建預測模型。75歡迎下載 可修改4 4、實時決策、實時決策n數據倉庫的第數據倉庫的第4種決策支持是企業需要準確了解種決策支持是企業需要準確了解“正在發正在發生什么生什么”,從而需要建立動態數據倉庫(實時數據庫),從而需要建立動態數據倉庫(實時數據庫),用于支持戰術型決策,即實時決策。有效地解決當前的用于支持戰術型決策

52、,即實時決策。有效地解決當前的實際問題。實際問題。n第第1到第到第3種決策支持的數據倉庫都以支持企業種決策支持的數據倉庫都以支持企業內部戰略內部戰略性決策為重點性決策為重點,幫助企業制定發展戰略。,幫助企業制定發展戰略。 n第第4種決策支持側重在戰術性決策支持。種決策支持側重在戰術性決策支持。n動態數據倉庫能夠逐項產品、逐個店鋪、逐秒地作出最動態數據倉庫能夠逐項產品、逐個店鋪、逐秒地作出最佳決策支持。佳決策支持。76歡迎下載 可修改5 5、事件觸發的自動決策、事件觸發的自動決策n數據倉庫的第數據倉庫的第5種決策支持是由事件觸發,利用種決策支持是由事件觸發,利用動態數據庫自動決策,動態數據庫自動

53、決策,達到達到“希望發生什么希望發生什么”。 例如,電子貨架標簽技術結合動態數據倉庫,可例如,電子貨架標簽技術結合動態數據倉庫,可以幫助企業按照自己的意愿實現復雜的價格管理以幫助企業按照自己的意愿實現復雜的價格管理自動化,以便以最低的損耗售出最多的存貨。自動化,以便以最低的損耗售出最多的存貨。77歡迎下載 可修改 5.5 5.5 知識發現與數據挖掘知識發現與數據挖掘 5.6 5.6 數據挖掘的決策支持及應用數據挖掘的決策支持及應用78歡迎下載 可修改演變階段商業問題支持技術產品廠家產品特點數據搜集(20世紀60年代)數據訪問(20世紀80年代)數據倉庫決策支持(20世紀90年代數據挖掘(正在流

54、行)“過去五年中整個有關聯鎖超市總收入是多少?”“聯鎖超市第一分部去年三月的銷售額是多少?”“聯鎖超市第一分部去年三月的銷售額是多少?第二分部據此可得出什么結論?”“下個月第二分部的銷售會怎么樣?為什么?”計算機、磁帶和磁盤關系數據庫(RDBMS),查詢語言(SQL),ODBCOLAP、多維數據庫和數據倉庫高級算法、多處理器計算機和海量數據庫IBM和CDCOracle、Sybase、Informix、IBM和MicrosoftPilot、Comshare、Arbor、Cognos和MicrostrategyPilot、Lockheed、IBM、SGI和其他初創公司提供歷史性的靜態的數據在記錄級

55、提供歷史性動態數據在各種層次上提供回溯的動態數據提供預測性信息表5-1 數據挖掘的演變進程79歡迎下載 可修改產 品ClementineDarwinData mining WorkstationData EngineIBM Intelligent MinerF-DBMSIDISInformation HarvesterKnowledge SeekerNeural WarePrisonRe Mind技 術供應商規則歸納神經網絡、遺傳算法等神經網絡神經網絡、模糊邏輯、信號處理多種技術分數維規則發現模糊專家系統規則發現、決策樹神經網絡神經網絡基于實例的推理、歸納邏輯Ingegral Solution

56、sThinking Machines Corp.HNC Software Inc.MIT GmbhIBM Corp.Cross/Z International Inc.Informational Discovery Inc.Informational HarvestingAngoss Software Int1 Ltd.Neural Ware Inc.Nestor Inc.Cognitive Systems表5-2 一些主要的數據挖掘產品80歡迎下載 可修改數據挖掘的興起數據挖掘的興起 (1 1)8080年在美國召開了第一屆國際機器學習研年在美國召開了第一屆國際機器學習研討會;討會; (2 2

57、)8989年年8 8月于美國底特律市召開的第一屆月于美國底特律市召開的第一屆KDDKDD國際學術會議;國際學術會議; (3 3)9595年在加拿大召開了第一屆知識發現和數年在加拿大召開了第一屆知識發現和數據挖掘國際學術會議;據挖掘國際學術會議; (4 4)我國于)我國于8787年召開了第一屆全國機器學習研年召開了第一屆全國機器學習研討會。討會。81歡迎下載 可修改知識發現(知識發現(KDD):):從數據中發現有用知識的整個過程。從數據中發現有用知識的整個過程。 KDD過程定義:過程定義: 從數據集中提取出可信的、新穎的、潛在有用的從數據集中提取出可信的、新穎的、潛在有用的,以及最以及最終可理解

58、的終可理解的模式模式的高級處理過程。的高級處理過程。 “模式模式”可以看成是可以看成是“知識知識”的雛形,經過驗證、完善后的雛形,經過驗證、完善后形成知識。形成知識。數據挖掘(數據挖掘(DMDM):):KDDKDD過程中的一個特定步驟,它用專門算過程中的一個特定步驟,它用專門算 法從數據中抽取模式(法從數據中抽取模式(patternspatterns)。)。82歡迎下載 可修改數據源數據源數據數據數據集成數據集成目標數據目標數據預處理后預處理后數據數據轉換數據轉換數據模式模式知識知識數據選擇數據選擇預處理預處理數據挖掘數據挖掘數據轉換數據轉換結果表達和解釋結果表達和解釋數據準備數據準備數據挖掘

59、數據挖掘結果表達和解釋結果表達和解釋83歡迎下載 可修改(一)歸納學習方法(一)歸納學習方法 分為兩大類:信息論方法(決策樹方法)和集合論方法分為兩大類:信息論方法(決策樹方法)和集合論方法 1 1、信息論方法(決策樹方法)、信息論方法(決策樹方法) 利用信息論的原理建立決策樹或者是決策規則樹。利用信息論的原理建立決策樹或者是決策規則樹。 (1 1)ID3ID3方法:方法:QuiulanQuiulan研制的研制的ID3ID3方法是利用信息論中互方法是利用信息論中互信息建立決策樹。信息建立決策樹。 (2 2)IBLEIBLE方法:方法:我們研制的我們研制的IBLEIBLE方法,是利用信息論中方法

60、,是利用信息論中信道容量,尋找數據庫中信息量大的多個字段的取值建立決信道容量,尋找數據庫中信息量大的多個字段的取值建立決策規則樹。策規則樹。84歡迎下載 可修改 2 2、集合論方法、集合論方法 (1 1)粗糙集()粗糙集(Rough SetRough Set)方法)方法 對數據庫中的條件屬性集與決策屬性集建立上下近似對數據庫中的條件屬性集與決策屬性集建立上下近似關系,對下近似集合建立確定性規則,對上近似集合建立關系,對下近似集合建立確定性規則,對上近似集合建立不確定性規則(含可信度)。不確定性規則(含可信度)。 (2 2)關聯規則挖掘)關聯規則挖掘 在交易事務數據庫中,挖掘出不同商品集的關聯關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論