數據挖掘與知識發現第一章_第1頁
數據挖掘與知識發現第一章_第2頁
數據挖掘與知識發現第一章_第3頁
數據挖掘與知識發現第一章_第4頁
數據挖掘與知識發現第一章_第5頁
已閱讀5頁,還剩18頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第1頁,課件共23頁,創作于2023年2月什么是數據挖掘數據挖掘要解決的問題數據挖掘的起源數據挖掘任務2第2頁,課件共23頁,創作于2023年2月商務領域

借助POS機、手機、電腦、日志、顧客服務記錄、顧客信息。商業公司可以獲取大量的數據。在這些數據上,我們可以做什么?

一些問題:誰是最有價值的顧客?什么產品可以交叉銷售或提升銷售?公司明年的收入前景如何?3第3頁,課件共23頁,創作于2023年2月醫學、科學與工程

醫學、科學與工程界的研究者正在快速積累大量數據,這些數據對新發現至關重要。

例一:為了更深入地理解地球的氣候系統,NASA

已部署了一系列的地球軌道衛星,不停的收集地表,海洋和大氣的全球觀測數據 一些問題:干旱和颶風的頻度和強度與全球變暖有什么聯系?海洋表面的溫度對地表降水量和溫度有什么影響?如何準確的預測一個度曲的生長季節的開始和結束?4第4頁,課件共23頁,創作于2023年2月醫學、科學與工程

例二:分子生物學研究者希望利用當前收集的大量基因組數據,更好的理解基因的結構和功能。數據的噪音和高維性需要新的數據分析方法。

數據挖掘也可以用來處理生物學的其他難題,如蛋白質結構預測,多序列校準,生物化學路徑建模和種系發生學。5第5頁,課件共23頁,創作于2023年2月1、什么是數據挖掘?6第6頁,課件共23頁,創作于2023年2月到底什么是數據挖掘呢?數據挖掘是在大型數據存儲庫中,自動地發現有用的信息的過程。1、發現先前未知的有用模式2、預測未來的觀測結果1、數據庫中查找個別記錄2、搜索引擎查找特定頁面7第7頁,課件共23頁,創作于2023年2月那么,什么又是知識發現呢?數據挖掘是數據庫中知識發現不可缺少的一部分,而知識發現是將未加工的數據轉換為有用信息的整個過程。輸入數據數據預處理數據挖掘后處理信息特征選擇維歸約規范化選擇數據子集模式過濾可視化模式表示8第8頁,課件共23頁,創作于2023年2月2、數據挖掘要解決的問題9第9頁,課件共23頁,創作于2023年2月

面臨新的數據集帶來的問題時,傳統的數據分析技術常常遇到實際的困難。可伸縮需要有能力處理海量數據問題高維性

需要很好的處理維災難問題異種數據和復雜數據 需要考慮數據對象的復雜性和多樣性數據的所有權與分布需要考慮數據安全性、加快計算速度、匯總計算結果非傳統的分析非單一假設-檢驗模式VS10第10頁,課件共23頁,創作于2023年2月3、數據挖掘的起源11第11頁,課件共23頁,創作于2023年2月人工智能、機器學習、和模式識別

數據挖掘的方法來自機器學習或AI,模式識別,統計學與數據庫系統統計學數據挖掘數據庫技術、并行計算、分布式計算12第12頁,課件共23頁,創作于2023年2月3、數據挖掘的任務13第13頁,課件共23頁,創作于2023年2月大類區分數據挖掘任務預測任務

根據其他屬性的值,預測特定屬性的值 被預測變量通常被稱為目標變量描述任務

導出概括數據中潛在聯系的模式

包括相關、趨勢、聚類、軌跡、異常14第14頁,課件共23頁,創作于2023年2月數據聚類分析關聯分析預測建模異常檢測15第15頁,課件共23頁,創作于2023年2月預測建模預測建模的任務可以分為兩類:分類回歸目標變量離散連續舉例是否買書股票價格共同點訓練模型,減小誤差預測建模的任務舉例:確定顧客對產品促銷活動的反應預測地球生態系統的擾動根據檢查結果判斷病人是否患有疾病16第16頁,課件共23頁,創作于2023年2月。預測建模例子: 預測鳶尾花(IRIS)的類型,Setosa,Veriscolour,Virginica。該數據集包含4個屬性和1個目標變量。屬性為萼片寬度,萼片長度,花瓣長度,花瓣寬度,目標變量為花的種類。我們可以根據區間寬度把花瓣寬度和長度分為低中高三類。然后可推出如下規則:花瓣寬度和花瓣長度為低蘊涵Setosa花瓣寬度和花瓣長度為中蘊涵Versicolour花瓣寬度和花瓣長度為高蘊涵Virginica17第17頁,課件共23頁,創作于2023年2月關聯分析

用來發現描述數據中強關聯特征的模式。關聯分析的任務舉例:找出具有相關功能的基因組識別用戶一起訪問的Web頁面理解地球氣候系統不同元素之間的聯系所發現的模式通常用蘊含規則或特征子集的形式表示搜索空間通常是指數規模的,因此關聯分析的目標是以有效的方式提取有趣的結果18第18頁,課件共23頁,創作于2023年2月關聯分析

例子:下面是一雜貨店收銀臺收集的銷售數據事務ID商品12345678910{面包,黃油,尿布,牛奶}{咖啡,糖,小甜餅,鮭魚}{面包,黃油,咖啡,尿布,牛奶,雞蛋}{面包,黃油,鮭魚,雞}{雞蛋,面包,黃油}{鮭魚,尿布,牛奶}{面包,茶,糖,雞蛋}{咖啡,糖,雞,雞蛋}{面包,尿布,牛奶,鹽}{茶,雞蛋,小甜餅,尿布,牛奶}顧客經常一起購買的商品是什么?19第19頁,課件共23頁,創作于2023年2月關聯分析事務ID商品12345678910{面包,黃油,尿布,牛奶}{咖啡,糖,小甜餅,鮭魚}{面包,黃油,咖啡,尿布,牛奶,雞蛋}{面包,黃油,鮭魚,雞}{雞蛋,面包,黃油}{鮭魚,尿布,牛奶}{面包,茶,糖,雞蛋}{咖啡,糖,雞,雞蛋}{面包,尿布,牛奶,鹽}{茶,雞蛋,小甜餅,尿布,牛奶}

例子:下面是一雜貨店收銀臺收集的銷售數據顧客經常一起購買的商品是什么?20第20頁,課件共23頁,創作于2023年2月聚類分析

旨在發現緊密相關的觀測值組群。

使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能相似。聚類分析的任務舉例:對相關顧客進行分組找出顯著影響地球氣候的海洋區域壓縮數據21第21頁,課件共23頁,創作于2023年2月聚類分析

例子:下表中的新聞文章可以根據他們各自的主題分組。每篇文章表示為詞-頻率對的組合(w:c)。w是詞,c是該詞在文章中出現的次數。這8篇文章如何劃分簇?22第22頁,課件共23頁,創作于2023年2月異常檢測

任務是識別其特征顯著不同于其他數據的觀測值,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論