數據倉庫與數據挖掘概述學時2_第1頁
數據倉庫與數據挖掘概述學時2_第2頁
數據倉庫與數據挖掘概述學時2_第3頁
數據倉庫與數據挖掘概述學時2_第4頁
數據倉庫與數據挖掘概述學時2_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據倉庫與數據挖掘數據倉庫與數據挖掘(data warehousing and data miningdata warehousing and data mining) 石家莊鐵道大學石家莊鐵道大學 2021-10-30-2-課程介紹課程介紹 21世紀是一個以世紀是一個以計算機技術計算機技術和和知識經濟知識經濟為核心為核心的的信息化時代信息化時代。隨著。隨著計算機技術計算機技術、網絡技術網絡技術的飛速的飛速發展和發展和數據庫應用數據庫應用的不斷深化,的不斷深化,數據倉庫(數據倉庫(data warehousing)和和數據挖掘(數據挖掘(data mining)技術及技術及其應用已成為計算機科

2、學技術領域的其應用已成為計算機科學技術領域的熱點之一熱點之一。2021-10-30-3-課程介紹課程介紹數據庫技術及其應用數據庫技術及其應用的的發展發展:從關系模型發展到面向對象模型從關系模型發展到面向對象模型從單機應用發展到分布式應用從單機應用發展到分布式應用從局域網數據庫應用發展到從局域網數據庫應用發展到web數據庫應用數據庫應用從從聯機事務處理(聯機事務處理(oltp:on-line transaction process)發展到發展到聯機分析處理(聯機分析處理(olap:on-line analysis process)從從數據庫數據庫發展到發展到數據倉庫數據倉庫從數據的從數據的統計分

3、析統計分析發展到發展到數據挖掘數據挖掘2021-10-30-4-課程介紹課程介紹(cont.) 目前,計算機科學技術界的許多專家、學者都目前,計算機科學技術界的許多專家、學者都在大力研究在大力研究數據倉庫的構筑技術數據倉庫的構筑技術和和基于各種模型的基于各種模型的數據挖掘算法數據挖掘算法,并取得了可喜的成果。國內外一些,并取得了可喜的成果。國內外一些著名計算機企業也紛紛提出了數據倉庫著名計算機企業也紛紛提出了數據倉庫實施戰略實施戰略,推出了一些推出了一些olap和數據挖掘工具。高等院校的研和數據挖掘工具。高等院校的研究生需要掌握這方面的新知識、新技術,掌握數據究生需要掌握這方面的新知識、新技術

4、,掌握數據倉庫與數據挖掘領域的倉庫與數據挖掘領域的基本理論、基本原理和實現基本理論、基本原理和實現技術技術,適應計算機科學技術新的發展趨勢。,適應計算機科學技術新的發展趨勢。2021-10-30-5-課程介紹課程介紹(cont.)本課程在本課程在數據倉庫數據倉庫部分全面深入地介紹部分全面深入地介紹數據倉數據倉庫的基本概念和體系結構庫的基本概念和體系結構,詳細闡述,詳細闡述數據倉庫的實數據倉庫的實現技術現技術;在;在數據挖掘數據挖掘部分介紹部分介紹數據挖掘的各類算法數據挖掘的各類算法(包括關聯規則挖掘算法、分類規則挖掘算法、聚(包括關聯規則挖掘算法、分類規則挖掘算法、聚類分析算法、類分析算法、w

5、ebweb數據挖掘等)。數據挖掘等)。 2021-10-30-6- 學時及成績評定學時及成績評定v學時:學時:3232=20+12=20+12u教學形式:講解、報告、實驗等教學形式:講解、報告、實驗等v考核方式:考核方式:c cu方式方式c c:平時(:平時(30%30%)+ +課程論文(課程論文(70%70%)u平時:出勤、課堂表現、作業、報告等平時:出勤、課堂表現、作業、報告等u課程論文:課程論文: 專題論文、實驗報告等專題論文、實驗報告等 2021-10-30-7- 參考資料參考資料1.王麗珍,周麗華王麗珍,周麗華 等等. 數據倉庫與數據挖掘原理及數據倉庫與數據挖掘原理及應用應用. 北京

6、:科學出版社,北京:科學出版社,2005 2.安淑芝安淑芝 等等. 數據倉庫與數據挖掘數據倉庫與數據挖掘. 北京:清華大北京:清華大學出版社,學出版社,2005 3.陳京民陳京民. 數據倉庫與數據挖掘技術數據倉庫與數據挖掘技術. 北京:電子北京:電子工業出版社,工業出版社,2002 4.data mining concepts and techniques. (影印版影印版). 北京:高等教育出版社,北京:高等教育出版社,2001 5.有關參考資料和文獻、學術刊物上有關論文有關參考資料和文獻、學術刊物上有關論文2021-10-30-8- 主要內容主要內容數據倉庫與數據挖掘概述數據倉庫與數據挖掘

7、概述 數據倉庫的數據模型與數據組織數據倉庫的數據模型與數據組織 數據倉庫的開發方法及開發過程數據倉庫的開發方法及開發過程 數據集市及開發數據集市及開發 olap概述、概述、molap與與rolap 數據挖掘技術與算法數據挖掘技術與算法 數據挖掘工具及其應用數據挖掘工具及其應用 2021-10-30-9-第第1章章 數據倉庫與數據挖掘概述數據倉庫與數據挖掘概述本章要點本章要點 數據倉庫的發展數據倉庫的發展 數據倉庫的基本概念數據倉庫的基本概念 數據挖掘的發展數據挖掘的發展 數據挖掘的基本概念數據挖掘的基本概念 數據倉庫與數據挖掘的集成數據倉庫與數據挖掘的集成2021-10-30-10-1. 引引

8、 言言在最近的幾十年當中,有關數據庫新技術的研究在最近的幾十年當中,有關數據庫新技術的研究有三件事情值得我們加以關注:有三件事情值得我們加以關注:面向對象數據庫面向對象數據庫: 80年代末 數數 據據 倉倉 庫庫: 90年代初 對象對象-關系數據庫關系數據庫:90年代中 2021-10-30-11-數據庫方式數據倉庫方式80年代以后90年代以后以支持日常業務處理過程為目的(oltp)以支持經營管理過程中的決策制定為目的(dss) 進入進入90年代以后,數據庫系統的應用從傳統的年代以后,數據庫系統的應用從傳統的事務處理事務處理應用擴展到應用擴展到輔助決策輔助決策等新的集成應用領域。等新的集成應用

9、領域。2021-10-30-12-面向對象數據庫面向對象數據庫數 據 倉 庫數 據 倉 庫對象對象-關系數據庫關系數據庫為傳統的為傳統的rdb開拓了新的開拓了新的應用途徑:應用途徑:聯機分析處理聯機分析處理(olap)數據挖掘數據挖掘(dm) 2021-10-30-13-2. 從數據庫到數據倉庫從數據庫到數據倉庫 基于數據庫技術的數據處理操作可以分為兩大類基于數據庫技術的數據處理操作可以分為兩大類: 操作型處理操作型處理 分析型處理分析型處理2021-10-30-14- 操作型處理操作型處理 分析型處理 也叫事務處理,是指對數據庫的日常聯機訪問操作,所以也叫聯機事務處理聯機事務處理(oltp:

10、 on-line transaction process)。 其訪問特點是: 通常僅僅是對一個或一組記錄的查詢或修改 執行頻率高 人們關心的是處理的響應時間、數據的安全性和完整性等指標。 2021-10-30-15- 操作型處理操作型處理 分析型處理分析型處理也叫聯機分析處理聯機分析處理(olap:on-line analyses process).用于企業管理人員的決策分析,為制訂企業的未來經營管理計劃提供輔助決策信息,如決策決策支持系統支持系統(dss-decision support system )。 其訪問特點是: 需要執行大量的統計操作 需要訪問大量的歷史數據 執行頻率和對響應時間

11、的要求都不高。2021-10-30-16- 展 示模 型 庫數 據 庫方 法 庫圖圖1 傳統的傳統的dss決策模型決策模型 決策支持系統決策支持系統是是70年代興起的一種計算機應年代興起的一種計算機應用技術,用于幫助企業領導作輔助性決策。用技術,用于幫助企業領導作輔助性決策。 傳統的傳統的dss系統由三個組成部分:數據、算系統由三個組成部分:數據、算法與模型、展示。其結構模型如圖法與模型、展示。其結構模型如圖1所示:所示:2021-10-30-17- 在傳統的以數據庫為核心的事務處理環境中不在傳統的以數據庫為核心的事務處理環境中不適宜建立適宜建立dss等分析型應用的原因主要有以下五條等分析型應

12、用的原因主要有以下五條: 事務處理:事務處理:用戶每次操作處理的時間短,存用戶每次操作處理的時間短,存取數據量小,但操作頻率高,并發程度大。取數據量小,但操作頻率高,并發程度大。 分析處理:分析處理:每次分析可能需要連續運行很長每次分析可能需要連續運行很長的時間,存取數據量大,但很少做這樣的分的時間,存取數據量大,但很少做這樣的分析處理,也沒有并發執行的要求。析處理,也沒有并發執行的要求。 (1) 事務處理和分析處理的性能特性不同事務處理和分析處理的性能特性不同2021-10-30-18- 分析處理:分析處理:dssdss需要集成的數據需要集成的數據,包括整個企業內部各部門的相,包括整個企業內

13、部各部門的相關數據,還需要企業外部、競爭關數據,還需要企業外部、競爭對手等處的相關數據。全面而正對手等處的相關數據。全面而正確的數據是有效的分析和決策的確的數據是有效的分析和決策的首要前提。首要前提。 因此用于分析處理的因此用于分析處理的數據可能來自多種不同的數據源數據可能來自多種不同的數據源,包括:,包括: 同構同構/ /異構數據庫異構數據庫 文件系統文件系統 internetinternet 外部的用戶數據。外部的用戶數據。(2)數據集成問題)數據集成問題 事務處理:事務處理:一般只需要與一般只需要與本部門業務有關的當前細節本部門業務有關的當前細節數據,而對整個企業范圍內數據,而對整個企業

14、范圍內的集成應用考慮很少,這就的集成應用考慮很少,這就造成大部分企業內部的數據造成大部分企業內部的數據是分散而非集成的。是分散而非集成的。 事務處理應用的分散性事務處理應用的分散性 “蜘蛛網蜘蛛網”問題問題 數據不一致問題數據不一致問題 外部數據(非結構化數據)外部數據(非結構化數據)2021-10-30-19- 對于需要集成數據的對于需要集成數據的dssdss應用來說,在應用應用來說,在應用程序中對事務處理環境中的這些紛繁復雜的數據程序中對事務處理環境中的這些紛繁復雜的數據進行集成將大大加重程序員的負擔,而且每做一進行集成將大大加重程序員的負擔,而且每做一次分析,就需要進行一次這樣的集成,也

15、會導致次分析,就需要進行一次這樣的集成,也會導致分析處理的效率極低。分析處理的效率極低。 2021-10-30-20-靜態集成:靜態集成:對所需數據進行一次集成,以后對所需數據進行一次集成,以后就不再發生變化。在采用靜態集成策略時,就不再發生變化。在采用靜態集成策略時,如果數據源中的數據發生了變化,那么這些如果數據源中的數據發生了變化,那么這些變化就不能反映給決策者,導致決策使用的變化就不能反映給決策者,導致決策使用的是過時的數據。是過時的數據。動態集成:動態集成:對集成后的數據進行周期性刷新對集成后的數據進行周期性刷新。(3 3)數據動態集成問題)數據動態集成問題2021-10-30-21-

16、事務處理:事務處理:一般只需要一般只需要當前數據當前數據,數據庫中的,數據庫中的過時數據雖然也能通過數據轉儲等方式保存下過時數據雖然也能通過數據轉儲等方式保存下來,但往往被束之高閣,未能得到充分利用。來,但往往被束之高閣,未能得到充分利用。分析處理:分析處理:更看重更看重歷史數據歷史數據,可以通過對大量,可以通過對大量歷史數據的詳細分析來把握企業的發展趨勢。歷史數據的詳細分析來把握企業的發展趨勢。(4)歷史數據問題)歷史數據問題2021-10-30-22-分析處理:分析處理:需要的往往是大量的總結性分析型需要的往往是大量的總結性分析型數據,而非數據庫中的細節性操作型數據。數據,而非數據庫中的細

17、節性操作型數據。事務處理:事務處理:需要的是當前的細節性操作數據。需要的是當前的細節性操作數據。(5 5)數據的綜合問題)數據的綜合問題 2021-10-30-23- 事務處理系統中積累的是大量的細節數據,而事務處理系統中積累的是大量的細節數據,而dss并不對這些細節數據進行分析。這就是常說并不對這些細節數據進行分析。這就是常說的數據庫中的數據庫中“數據豐富、信息匱乏數據豐富、信息匱乏”。 數據庫中太多的細節數據一方面會數據庫中太多的細節數據一方面會影響分析的效影響分析的效率率,另一方面也,另一方面也不利于分析人員將注意力集中于不利于分析人員將注意力集中于有用的信息上有用的信息上。因此,在分析

18、前往往需要對細節。因此,在分析前往往需要對細節數據進行不同程度的綜合,在數據庫系統中,這數據進行不同程度的綜合,在數據庫系統中,這種綜合還往往因為是一種數據冗余而被限制。種綜合還往往因為是一種數據冗余而被限制。 2021-10-30-24-分析處理:分析處理:數據的訪問操作以數據的訪問操作以讀讀操作為主,操作為主,不需要實時的不需要實時的更新更新操作,但需要定時操作,但需要定時刷新刷新。事務處理:事務處理:提供多種不同類型的數據訪問操作,提供多種不同類型的數據訪問操作,對于需要修改的數據必須實時對于需要修改的數據必須實時更新更新數據庫。數據庫。(6 6)數據的訪問問題)數據的訪問問題2021-

19、10-30-25-綜上所述,在事務處理環境中直接構建分析處綜上所述,在事務處理環境中直接構建分析處理應用是不合適的,要提高分析處理和決策支持的理應用是不合適的,要提高分析處理和決策支持的效率和有效性,必須將效率和有效性,必須將分析型處理及其所需的綜合分析型處理及其所需的綜合性數據性數據從傳統的事務型處理和細節性數據中分離出從傳統的事務型處理和細節性數據中分離出來,按照來,按照dss的需要重新進行組織,建立單獨的分的需要重新進行組織,建立單獨的分析處理環境,析處理環境,數據倉庫數據倉庫正是為了建立這種新的分析正是為了建立這種新的分析處理環境而出現的一種數據存儲和組織技術。處理環境而出現的一種數據

20、存儲和組織技術。目前,數據倉庫技術正成為企業信息集成和輔目前,數據倉庫技術正成為企業信息集成和輔助決策應用的關鍵技術之一。助決策應用的關鍵技術之一。2021-10-30-26- 在現代計算機信息系統中,數據的作用有兩個在現代計算機信息系統中,數據的作用有兩個方面:事務處理和分析處理(數據分析),不同方面:事務處理和分析處理(數據分析),不同的用戶需要不同的數據信息。的用戶需要不同的數據信息。 操作型數據操作型數據:事務處理所需要的細節性的數據事務處理所需要的細節性的數據 分析型數據分析型數據:分析處理所需的綜合性數據分析處理所需的綜合性數據3.3. 數據分析與數據倉庫數據分析與數據倉庫 202

21、1-10-30-27-表表1 操作型操作型數據與數據與分析型分析型數據的區別數據的區別操作型數據操作型數據分析型數據分析型數據細節的細節的綜合的(提煉的)綜合的(提煉的)當前數據當前數據歷史及周邊相關數據歷史及周邊相關數據可更新可更新不更新(可周期性刷新)不更新(可周期性刷新)面向應用,事務驅動面向應用,事務驅動面向分析,分析驅動面向分析,分析驅動操作需求事先可知道操作需求事先可知道不知道不知道一次操作數據量小一次操作數據量小一次操作數據量大一次操作數據量大支持日常操作支持日常操作支持管理需求支持管理需求性能要求高性能要求高對性能要求較寬松對性能要求較寬松2021-10-30-28- 20世紀

22、世紀80年代中期,數據倉庫之父年代中期,數據倉庫之父w.h.inmon 對數據倉庫所下的定義:對數據倉庫所下的定義: 數據倉庫就是一個面向主題的、集成的、不數據倉庫就是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數據集合可更新的、隨時間不斷變化的數據集合。2021-10-30-29- 主題主題(subject):):特定的數據分析領域與目標。特定的數據分析領域與目標。 面向主題面向主題:為特定的數據分析領域提供數據支持:為特定的數據分析領域提供數據支持。 為特定數據分析領域提供的數據與傳統數據庫中為特定數據分析領域提供的數據與傳統數據庫中的數據是有不同的。傳統數據庫中的數據是原始的數據

23、是有不同的。傳統數據庫中的數據是原始的、基礎的數據,而特定分析領域數據則是需要的、基礎的數據,而特定分析領域數據則是需要對它們作必要的抽取、加工與總結而形成。對它們作必要的抽取、加工與總結而形成。4. 數據倉庫的四大特色數據倉庫的四大特色 (1)面向主題)面向主題2021-10-30-30- 數據倉庫是面向分析、決策人員的主觀要求的,數據倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個用戶的要求也不同的用戶有不同的要求,同一個用戶的要求也會隨時間而經常變化,因此,數據倉庫中的主題會隨時間而經常變化,因此,數據倉庫中的主題有時會因用戶主觀要求的變化而變化的。有時會因用戶主觀要

24、求的變化而變化的。 例例1:一個:一個面向事務處理面向事務處理的的“商場商場”數據庫系統數據庫系統,其數據模式如下:,其數據模式如下:2021-10-30-31-采購子系統:采購子系統:訂單(訂單號,供應商號,總金額,日期)訂單(訂單號,供應商號,總金額,日期)訂單細則(訂單號,商品號,類別,單價,數量)訂單細則(訂單號,商品號,類別,單價,數量)供應商(供應商號,供應商名,地址,電話)供應商(供應商號,供應商名,地址,電話)銷售子系統:銷售子系統:顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數量,單

25、價,日期)銷售(員工號,顧客號,商品號,數量,單價,日期)2021-10-30-32-庫存管理子系統:庫存管理子系統:領料單(領料單號,領料人,商品號,數量,日期)領料單(領料單號,領料人,商品號,數量,日期)進料單(進料單號,訂單號,進料人,收料人,日期)進料單(進料單號,訂單號,進料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,倉庫管理員,地點,庫存商品描述)庫房(庫房號,倉庫管理員,地點,庫存商品描述)人事管理子系統:人事管理子系統:員工(員工號,姓名,性別,年齡,文化程度,部門號)員工(員工號,姓名,性別,年齡,文化程度,部門號

26、)部門(部門號,部門名稱,部門主管,電話)部門(部門號,部門名稱,部門主管,電話)2021-10-30-33- 上述數據模式基本上是按照企業內部的業務活動上述數據模式基本上是按照企業內部的業務活動及其需要的相關數據來組織數據的存儲的,沒有及其需要的相關數據來組織數據的存儲的,沒有實現真正的數據與應用分離,其抽象程度也不夠實現真正的數據與應用分離,其抽象程度也不夠高。高。 如果按照面向主題的方式進行數據組織,首先應如果按照面向主題的方式進行數據組織,首先應該抽取主題,即按照管理人員的分析要求來確定該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關的數據又與有關的事務主題,而與每個主

27、題相關的數據又與有關的事務處理所需的數據不盡相同。處理所需的數據不盡相同。2021-10-30-34-商品固有信息:商品號,商品名,類別,顏色等商品固有信息:商品號,商品名,類別,顏色等商品采購信息:商品號,供應商號,供應價,供應商品采購信息:商品號,供應商號,供應價,供應日期,供應量等日期,供應量等商品銷售信息:商品號,顧客號,售價,銷售日期商品銷售信息:商品號,顧客號,售價,銷售日期,銷售量等,銷售量等商品庫存信息:商品號,庫房號,庫存量,日期等商品庫存信息:商品號,庫房號,庫存量,日期等主題一:主題一:商品商品2021-10-30-35-供應商固有信息:供應商號,供應商名,地址,電供應商

28、固有信息:供應商號,供應商名,地址,電話等話等供應商品信息:供應商號,商品號,供應價,供應供應商品信息:供應商號,商品號,供應價,供應日期,供應量等日期,供應量等主題二:主題二:供應商供應商2021-10-30-36-顧客固有信息:顧客號,顧客名,性別,年齡,文顧客固有信息:顧客號,顧客名,性別,年齡,文化程度,住址,電話等化程度,住址,電話等顧客購物信息:顧客號,商品號,售價,購買日期顧客購物信息:顧客號,商品號,售價,購買日期,購買量等,購買量等主題三:主題三:顧客顧客2021-10-30-37- 在每個主題中,都包含了有關該主題的所有信息,同在每個主題中,都包含了有關該主題的所有信息,同

29、時又拋棄了與分析處理無關或不需要的數據,從而將時又拋棄了與分析處理無關或不需要的數據,從而將原本分散在各個子系統中的有關信息集中在一個主題原本分散在各個子系統中的有關信息集中在一個主題中,形成有關該主題的一個完整一致的描述。面向主中,形成有關該主題的一個完整一致的描述。面向主題的數據組織方式所強調的就是要形成一個這樣一致題的數據組織方式所強調的就是要形成一個這樣一致的信息集合。的信息集合。 不同的主題之間也有重疊的內容,但這種重疊是邏輯不同的主題之間也有重疊的內容,但這種重疊是邏輯上的,而不是物理存儲上的重疊;是部分細節的重疊上的,而不是物理存儲上的重疊;是部分細節的重疊,而不是完全的重疊。,

30、而不是完全的重疊。2021-10-30-38- 每個主題所需數據的物理存儲:每個主題所需數據的物理存儲: 多維數據庫多維數據庫(mddbmulti-dimensional database):用多維:用多維數組形式存儲數據。數組形式存儲數據。 關系數據庫:關系數據庫:用一組關系來組織數據的存儲,同用一組關系來組織數據的存儲,同一主題的一組關系都有一個公共的關鍵字,存放的也一主題的一組關系都有一個公共的關鍵字,存放的也不是細節性的業務數據,而是經過一定程度的綜合形不是細節性的業務數據,而是經過一定程度的綜合形成的綜合性數據。成的綜合性數據。2021-10-30-39- 數據倉庫中的數據是為分析服

31、務的,而分析需要多數據倉庫中的數據是為分析服務的,而分析需要多種廣泛的不同數據源以便進行比較、鑒別,因此數種廣泛的不同數據源以便進行比較、鑒別,因此數據倉庫中的數據必須從據倉庫中的數據必須從多個數據源多個數據源中獲取,通過數中獲取,通過數據集成而形成數據倉庫中的數據。據集成而形成數據倉庫中的數據。(2)集成的)集成的n集成的方法:集成的方法:統一:消除不一致的現象統一:消除不一致的現象綜合:對原有數據進行綜合和計算綜合:對原有數據進行綜合和計算2021-10-30-40- 數據倉庫中的數據是經過抽取而形成的分析型數據數據倉庫中的數據是經過抽取而形成的分析型數據,不具有原始性,主要供企業決策分析

32、之用,執行,不具有原始性,主要供企業決策分析之用,執行的主要是的主要是“查詢查詢”操作,一般不執行操作,一般不執行“更新更新”操作操作。 但這也不等于數據倉庫中的數據不需要但這也不等于數據倉庫中的數據不需要“更新更新”操操作。作。在需要進行新的分析決策時,可能需要進行新的數據抽取在需要進行新的分析決策時,可能需要進行新的數據抽取和和“更新更新”操作操作數據倉庫中的一些過時的數據,也可以通過數據倉庫中的一些過時的數據,也可以通過“刪除刪除”操作操作丟棄掉。丟棄掉。(3)不可更新)不可更新 2021-10-30-41- 數據倉庫中的數據必須以一定時間段為單位進數據倉庫中的數據必須以一定時間段為單位

33、進行統一更新。行統一更新。(4)隨時間不斷變化)隨時間不斷變化 不斷增加新的數據內容不斷增加新的數據內容 不斷刪去舊的數據內容不斷刪去舊的數據內容 更新與時間有關的綜合數據更新與時間有關的綜合數據2021-10-30-42- 數據庫數據數據庫數據數據倉庫數據數據倉庫數據1原始性數據原始性數據加工型數據加工型數據2分散性數據分散性數據集成性數據集成性數據3當前數據當前數據歷史數據歷史數據4即時數據即時數據快照數據快照數據5多種數據訪問操作多種數據訪問操作讀操作讀操作2021-10-30-43- 數據挖掘數據挖掘(data mining,簡記為簡記為dm):):是指從是指從大型數據庫或數據倉庫中提

34、取隱含的、未知的、大型數據庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式的高級非平凡的及有潛在應用價值的信息或模式的高級處理過程。處理過程。 模式模式:即知識,它給出了數據特性或數據之間的:即知識,它給出了數據特性或數據之間的關系,是對數據所包含的信息更抽象的描述。按關系,是對數據所包含的信息更抽象的描述。按功能可以分為預測型模式和描述型模式。在實際功能可以分為預測型模式和描述型模式。在實際應用中,可以細分為關聯模式、分類模式、聚類應用中,可以細分為關聯模式、分類模式、聚類模式和序列模式等。模式和序列模式等。數據挖掘的定義數據挖掘的定義2021-10-30-44- 沃爾

35、瑪通過建立的數據倉庫,按周期統計產品沃爾瑪通過建立的數據倉庫,按周期統計產品的銷售信息,經過科學建模后提煉決策層數據。結的銷售信息,經過科學建模后提煉決策層數據。結果發現:每逢周末,位于某地區的沃爾瑪連鎖超市果發現:每逢周末,位于某地區的沃爾瑪連鎖超市啤酒和尿布的銷量很大。進一步調查表明,在美國啤酒和尿布的銷量很大。進一步調查表明,在美國有孩子的家庭中,太太經常囑咐他們的丈夫下班以有孩子的家庭中,太太經常囑咐他們的丈夫下班以后要為孩子買尿布,而丈夫們在買完尿布以后又順后要為孩子買尿布,而丈夫們在買完尿布以后又順手帶回了自己愛喝的啤酒,因此啤酒和尿布一起購手帶回了自己愛喝的啤酒,因此啤酒和尿布一

36、起購買的機會是最多的。之后該店打破常規,買的機會是最多的。之后該店打破常規,將啤酒和將啤酒和尿布的貨架放在了一起,使得啤酒和尿布的銷量進尿布的貨架放在了一起,使得啤酒和尿布的銷量進一步增長。一步增長。數據挖掘經典舉例數據挖掘經典舉例-啤酒和尿布啤酒和尿布2021-10-30-45- 數據挖掘和數據倉庫是作為兩種獨立的信息技術數據挖掘和數據倉庫是作為兩種獨立的信息技術出現的。它們都可以完成對決策過程的支持,并出現的。它們都可以完成對決策過程的支持,并且相互間有一定的內在聯系。因此,將數據倉庫且相互間有一定的內在聯系。因此,將數據倉庫與數據挖掘集成到一個系統中將能夠更有效地提與數據挖掘集成到一個系

37、統中將能夠更有效地提高系統的決策支持能力。高系統的決策支持能力。 數據挖掘是一門數據挖掘是一門交叉性學科交叉性學科,它涉及到機器學習,它涉及到機器學習、模式識別、統計學、智能數據庫、知識獲取、模式識別、統計學、智能數據庫、知識獲取、數據可視化、高性能計算、專家系統等多個領域數據可視化、高性能計算、專家系統等多個領域。可廣泛地應用于信息管理、過程控制、科學研。可廣泛地應用于信息管理、過程控制、科學研究、決策支持等許多方面。究、決策支持等許多方面。 2021-10-30-46-數據挖掘的任務是從大量的數據中發現模式。根數據挖掘的任務是從大量的數據中發現模式。根據數據挖掘的任務可分為多種類型,其中比

38、較典據數據挖掘的任務可分為多種類型,其中比較典型的有:型的有:預測模型預測模型關聯分析關聯分析分類分析分類分析聚類分析聚類分析數據挖掘的類型數據挖掘的類型序列分析序列分析偏差檢測偏差檢測模式相似性挖掘模式相似性挖掘webweb數據挖掘數據挖掘2021-10-30-47- 預測模型(預測模型(predictive modelingpredictive modeling):):所謂預測即所謂預測即從數據庫或數據倉庫中已知的數據推測未知的數從數據庫或數據倉庫中已知的數據推測未知的數據或對象集中某些屬性的值分布。如預測用戶的據或對象集中某些屬性的值分布。如預測用戶的業務趨勢。業務趨勢。 建立預測模型的

39、常用方法:建立預測模型的常用方法:回歸分析回歸分析線性模型線性模型關聯規則關聯規則預測模型預測模型決策樹預測決策樹預測遺傳算法遺傳算法神經網絡神經網絡2021-10-30-48- 關聯(關聯(association)分析:關聯規則描述了一組數分析:關聯規則描述了一組數據項之間的密切度或關系。關聯分析用于發現項目據項之間的密切度或關系。關聯分析用于發現項目集之間的關聯。集之間的關聯。 關聯規則挖掘近幾年研究較多。現在,關聯規則的關聯規則挖掘近幾年研究較多。現在,關聯規則的挖掘已經從單一概念層次關聯規則的發現發展到多挖掘已經從單一概念層次關聯規則的發現發展到多概念層次的關聯規則的發現,并把研究的重

40、點放在概念層次的關聯規則的發現,并把研究的重點放在提高算法的效率和規模可收縮性上。它廣泛地運用提高算法的效率和規模可收縮性上。它廣泛地運用于幫助市場導向、商品目錄設計等商業決策過程中于幫助市場導向、商品目錄設計等商業決策過程中。“啤酒和尿布啤酒和尿布”是經典的是經典的關聯分析。關聯分析。關聯分析關聯分析2021-10-30-49- 關聯分析算法:關聯分析算法:apriori算法、算法、dhp算法、算法、dic算法、算法、partition算法及它們的各種改進算法等算法及它們的各種改進算法等。另外,對于大規模、分布在不同站點上的數據。另外,對于大規模、分布在不同站點上的數據庫或數據倉庫,關聯規則

41、的挖掘可以使用并行算庫或數據倉庫,關聯規則的挖掘可以使用并行算法,如:法,如:count分布算法、分布算法、data分布算法、分布算法、candidate 分布算法、智能分布算法、智能data分布算法(分布算法(idd)和和dma分布算法等。分布算法等。2021-10-30-50- 分類(分類(classification)分析:根據數據的特征為每分析:根據數據的特征為每個類別建立一個模型,根據數據的屬性將數據分配個類別建立一個模型,根據數據的屬性將數據分配到不同的組中。到不同的組中。 分類分析已經成功地用于顧客分類、疾病分類、商分類分析已經成功地用于顧客分類、疾病分類、商業建模和信用卡分析等

42、。業建模和信用卡分析等。 分類分析的常用方法:決策樹、粗糙集(分類分析的常用方法:決策樹、粗糙集(rough set) 、神經網絡、統計分析法。、神經網絡、統計分析法。分類分析分類分析2021-10-30-51- 聚類聚類(clustering)分析:聚類分析是按照某種相近程分析:聚類分析是按照某種相近程度度量方法將數據分成互不相同的一些分組。每一度度量方法將數據分成互不相同的一些分組。每一個分組中的數據相近,不同分組之間的數據相差較個分組中的數據相近,不同分組之間的數據相差較大。大。 聚類分析的常用方法:隨機搜索聚類法、特征聚類聚類分析的常用方法:隨機搜索聚類法、特征聚類、cf樹。樹。聚類分析聚類分析2021-10-3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論