《數(shù)據(jù)科學(xué)與工程導(dǎo)論》課件-13 數(shù)據(jù)挖掘基礎(chǔ)_第1頁
《數(shù)據(jù)科學(xué)與工程導(dǎo)論》課件-13 數(shù)據(jù)挖掘基礎(chǔ)_第2頁
《數(shù)據(jù)科學(xué)與工程導(dǎo)論》課件-13 數(shù)據(jù)挖掘基礎(chǔ)_第3頁
《數(shù)據(jù)科學(xué)與工程導(dǎo)論》課件-13 數(shù)據(jù)挖掘基礎(chǔ)_第4頁
《數(shù)據(jù)科學(xué)與工程導(dǎo)論》課件-13 數(shù)據(jù)挖掘基礎(chǔ)_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)科學(xué)與工程導(dǎo)論IntroductiontoDataScienceandEngineering開篇實(shí)例競選作弊器?據(jù)《紐約時報》和《英國觀察家報》報道,2016年美國總統(tǒng)大選期間,劍橋分析公司(CambridgeAnalytica)與特朗普競選團(tuán)隊(duì)合作,獲取了總計(jì)超過5000萬名Facebook用戶的數(shù)據(jù),采用獨(dú)家的心理統(tǒng)計(jì)模型分析用戶行為,對用戶進(jìn)行完整畫像,幫助特朗普競選團(tuán)隊(duì)定制從政治立場到競選口號的一切,并精準(zhǔn)投放數(shù)字廣告,預(yù)測和影響民意的選擇,一定程度上扭轉(zhuǎn)了特朗普的糟糕形象,幫助他贏得了大選。開篇實(shí)例競選作弊器?奧巴馬2012年競選團(tuán)隊(duì)對每一個地區(qū)的支持者都進(jìn)行分析,發(fā)現(xiàn)哪一個州選票下降,就到哪個州去加大競選力度、做演講、拉選票、籌款。有段時間,有心的選民發(fā)現(xiàn)奧巴馬與著名影星喬治?克魯尼總是在一起,不免奇怪,原來,他的競選團(tuán)隊(duì)通過社交媒體數(shù)據(jù)分析發(fā)現(xiàn),奧巴馬最缺的就是加州的、有錢的、中年婦女的支持選票,進(jìn)一步研究分析發(fā)現(xiàn),加州中年女富婆的偶像是喬治?克魯尼,于是立即進(jìn)行競選策劃,頻頻展現(xiàn)奧巴馬與喬治在一起打球、休閑的照片。自從他們倆在一塊以后,競選籌款的速度立即飚升,廣告界不愧是業(yè)界的敏感精英,當(dāng)年度《廣告學(xué)人》雜志穩(wěn)穩(wěn)地評選奧巴馬成為為年度最佳廣告人。開篇實(shí)例新/老十大數(shù)據(jù)挖掘算法ICDM2006年12月評選出C4.5k-MeansSVMAprioriEMPageRankAdaBoostkNNNaiveBayesCART2017年KDnuggets調(diào)研初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程數(shù)據(jù)挖掘的技術(shù)大數(shù)據(jù)挖掘1234第13章

數(shù)據(jù)挖掘基礎(chǔ)13.1初識數(shù)據(jù)挖掘?yàn)槭裁匆獢?shù)據(jù)挖掘數(shù)據(jù)的爆炸性增長:從TB到PB數(shù)據(jù)的收集和數(shù)據(jù)的可獲得性自動數(shù)據(jù)收集工具、數(shù)據(jù)庫系統(tǒng)、WEB、計(jì)算機(jī)化的社會豐富數(shù)據(jù)的來源商業(yè):WEB、電子商務(wù)、交易數(shù)據(jù)、股市...科學(xué):遙感、生物信息學(xué)、科學(xué)模擬社會及每個人:新聞、數(shù)碼相機(jī)、YouTube我們被數(shù)據(jù)所淹沒,但卻渴望知識“需要是發(fā)明之母”,數(shù)據(jù)挖掘:海量數(shù)據(jù)的自動分析技術(shù)13.1初識數(shù)據(jù)挖掘?yàn)槭裁匆獢?shù)據(jù)挖掘數(shù)據(jù)挖掘產(chǎn)生于商業(yè)高層的決策問題13.1初識數(shù)據(jù)挖掘?yàn)槭裁匆獢?shù)據(jù)挖掘數(shù)據(jù)爆炸

知識貧乏數(shù)據(jù)知識決策模式趨勢事實(shí)關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟(jì)政府POS.人口統(tǒng)計(jì)生命周期13.1初識數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識)從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫中的知識挖掘(KDD)知識提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘過程的核心knowledge數(shù)據(jù)清洗選取數(shù)據(jù)挖掘模式評估數(shù)據(jù)庫數(shù)據(jù)倉庫任務(wù)相關(guān)數(shù)據(jù)數(shù)據(jù)集成13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘VS傳統(tǒng)數(shù)據(jù)分析海量數(shù)據(jù)算法必須有高度的可擴(kuò)展性,以有效處理TB級數(shù)據(jù)高維數(shù)據(jù)可高達(dá)數(shù)萬個不同的維數(shù)據(jù)的高度復(fù)雜性流數(shù)據(jù)和傳感數(shù)據(jù)時間數(shù)據(jù)、序列數(shù)據(jù)、時序數(shù)據(jù)圖、社會網(wǎng)絡(luò)、多關(guān)系數(shù)據(jù)異構(gòu)數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫空間數(shù)據(jù)、時空數(shù)據(jù)、多媒體、文本和WEB數(shù)據(jù)新的、復(fù)雜的應(yīng)用13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘:多學(xué)科融合數(shù)據(jù)挖掘數(shù)據(jù)庫系統(tǒng)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)高性能計(jì)算數(shù)據(jù)可視化其他學(xué)科13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘的主要功能一般功能描述性的數(shù)據(jù)挖掘預(yù)測性的數(shù)據(jù)挖掘通常并不知道在數(shù)據(jù)中能挖掘出什么,對此會在數(shù)據(jù)挖掘中應(yīng)用一些常用的挖掘功能,挖掘出一些常用的模式,包括:概念/類描述:特性化和區(qū)分關(guān)聯(lián)分析分類和預(yù)測聚類分析孤立點(diǎn)分析趨勢和演變分析13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)技術(shù)分類預(yù)言(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律典型的數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)分析序列模式分類(預(yù)言)聚集異常檢測13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘的數(shù)據(jù)源關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級數(shù)據(jù)庫和信息庫面向?qū)ο髷?shù)據(jù)庫空間和時態(tài)數(shù)據(jù)庫時序數(shù)據(jù)流數(shù)據(jù)多媒體數(shù)據(jù)庫異種數(shù)據(jù)庫文本數(shù)據(jù)庫13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘任務(wù)I分類(Classification)構(gòu)造模型(函數(shù))來描述和區(qū)分各種類別或概念,用于未來的預(yù)測決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)回歸分析(Regression)確定兩個或兩個以上變量之間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法概率估計(jì)(ProbabilityEstimation)13.1初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘任務(wù)II聚類(Clustering)類的標(biāo)簽未知:對數(shù)據(jù)分組來形成新的類,例如:對房子聚類來發(fā)現(xiàn)分布模式把類內(nèi)的相似性最大化&類間的相似性最小化奇異點(diǎn)檢測關(guān)聯(lián)發(fā)現(xiàn)(AssociationDetection)尿布和啤酒[0.5%,75%]總結(jié)(Summarization)趨勢和偏差檢測(Trendanddeviationdetection)初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程數(shù)據(jù)挖掘的技術(shù)大數(shù)據(jù)挖掘1234第13章

數(shù)據(jù)挖掘基礎(chǔ)13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DMCRISP-DM是CRoss-IndustryStandardProcess-DataMining的縮寫商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布找問題-確定商業(yè)目標(biāo)對現(xiàn)有資源的評估確定問題是否能夠通過數(shù)據(jù)挖掘來解決確定數(shù)據(jù)挖掘的目標(biāo)制定數(shù)據(jù)挖掘計(jì)劃CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布

確定數(shù)據(jù)挖掘所需要的數(shù)據(jù)對數(shù)據(jù)進(jìn)行描述數(shù)據(jù)的初步探索檢查數(shù)據(jù)的質(zhì)量CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布選擇數(shù)據(jù)清理數(shù)據(jù)對數(shù)據(jù)進(jìn)行重建調(diào)整數(shù)據(jù)格式使之適合建模CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布

對各個模型進(jìn)行評價選擇數(shù)據(jù)挖掘模型建立模型CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布

評估數(shù)據(jù)挖掘的結(jié)果對整個數(shù)據(jù)挖掘過程的前面步驟進(jìn)行評估確定下一步怎么辦?是發(fā)布模型?還是對數(shù)據(jù)挖掘過程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布

把數(shù)據(jù)挖掘模型的結(jié)果送到相應(yīng)的管理人員手中對模型進(jìn)行日常的監(jiān)測和維護(hù)定期更新數(shù)據(jù)挖掘模型CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布CRISP-DM13.2數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建立模型模型評估模型發(fā)布Better

dataminingresults!InsightBusinessproblem?What

youknow挖掘工具把業(yè)務(wù)經(jīng)驗(yàn)融入數(shù)據(jù)挖掘過程是數(shù)據(jù)挖掘成功的關(guān)鍵初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程數(shù)據(jù)挖掘的技術(shù)大數(shù)據(jù)挖掘1234第13章

數(shù)據(jù)挖掘基礎(chǔ)從分析目的分類:描述(Description):了解數(shù)據(jù)中潛在的規(guī)律預(yù)測(Predication):用歷史預(yù)測未來從技術(shù)類型分類:分類聚集關(guān)聯(lián)分析離群點(diǎn)分析異常檢測技術(shù)分類13.3數(shù)據(jù)挖掘的技術(shù)概念描述:產(chǎn)生數(shù)據(jù)的特征化和比較描述(當(dāng)所描述的概念所指的是一類對象時,也稱為類描述)數(shù)據(jù)特征化:目標(biāo)類數(shù)據(jù)的一般特性或特征匯總。例:對某公司的“大客戶”(年消費(fèi)額10000元以上)的特征化描述:40-50歲,有固定職業(yè),信譽(yù)良好,等等數(shù)據(jù)區(qū)分:將目標(biāo)類數(shù)據(jù)對象的一般特性與一個或多個對比類對象的一般特性進(jìn)行比較。描述性分析13.3數(shù)據(jù)挖掘的技術(shù)StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210分類與預(yù)測13.3數(shù)據(jù)挖掘的技術(shù)分類預(yù)測分類標(biāo)號(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測建立連續(xù)函數(shù)值模型例如預(yù)測空缺值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場醫(yī)療診斷性能預(yù)測

分類13.3數(shù)據(jù)挖掘的技術(shù)分類13.3數(shù)據(jù)挖掘的技術(shù)TIDAttrib1Attrib2Attrib3class1YesLarge125KNo2NoMedium100KNo3NoSmall70KNo4YesMedium120KNo5NoLarge95KYes6NoMedium60KNo7YesLarge220KNo8NoSmall85KYes9NoMedium75KNo10NoSmall90KYesTIDAttrib1Attrib2Attrib3class11NoSmall55K?12YesMedium80K?13YesLarge110K?14NoSmall95K?15NoLarge67K?LearningalgorithmLearnModelApplyModelModelInductionDeduction分類:常用方法13.3數(shù)據(jù)挖掘的技術(shù)決策樹DecisionTree神經(jīng)網(wǎng)絡(luò)NeuralNetworks規(guī)則歸納RuleInduction支持向量機(jī)SupportVectorMachine貝葉斯學(xué)習(xí)BayesianLearningEnsemble方法AdaBoostBagging分類:決策樹示例13.3數(shù)據(jù)挖掘的技術(shù)TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYes離散值連續(xù)值RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80K劃分屬性分類:決策樹示例13.3數(shù)據(jù)挖掘的技術(shù)TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90KYesMarStRefundTaxIncYESNONONOYesNoMarried

Single,Divorced<80K>80K可能有多棵決策樹擬合同一個數(shù)據(jù)集分類:決策樹示例13.3數(shù)據(jù)挖掘的技術(shù)RefundMarStTaxIncYESNONONOYesNoMarriedSingle,Divorced<80K>80KRefundMaritalStatusTaxableIncomeCheatNoMarried80K?測試數(shù)據(jù)NO第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對將來的或未知的對象進(jìn)行分類首先評估模型的預(yù)測準(zhǔn)確率對每個測試樣本,將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準(zhǔn)確率是正確被模型分類的測試樣本的百分比測試集要獨(dú)立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況分類:兩步過程13.3數(shù)據(jù)挖掘的技術(shù)分類:兩步過程13.3數(shù)據(jù)挖掘的技術(shù)訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則第一步:建立模型分類:兩步過程13.3數(shù)據(jù)挖掘的技術(shù)第二步:用模型進(jìn)行分類分類規(guī)則測試集未知數(shù)據(jù)(Jeff,Professor,4)Tenured?分類:KNN算法示例13.3數(shù)據(jù)挖掘的技術(shù)下面圖片中只有三種豆,有三個豆是未知的種類,如何判定他們的種類?1968年,Cover和Hart提出了最初的近鄰法提供一種思路,即:未知的豆離哪種豆最近就認(rèn)為未知豆和該豆是同一種類。由此,我們引出最近鄰算法的定義:為了判定未知樣本的類別,以全部訓(xùn)練樣本作為代表點(diǎn),計(jì)算未知樣本與所有訓(xùn)練樣本的距離,并以最近鄰者的類別作為決策未知樣本類別的唯一依據(jù)。但是,最近鄰算法明顯是存在缺陷的,我們來看一個例子。我們可以明顯發(fā)現(xiàn)最近鄰算法的缺陷——對噪聲數(shù)據(jù)過于敏感。為了解決這個問題,我們可以把位置樣本周邊的多個最近樣本計(jì)算在內(nèi),擴(kuò)大參與決策的樣本量,以避免個別數(shù)據(jù)直接決定決策結(jié)果,這樣的算法又稱作K-最近鄰算法(KNN)。分類:KNN算法示例13.3數(shù)據(jù)挖掘的技術(shù)綠色點(diǎn)是正方形還是三角形?KNN算法是最近鄰算法的一個延伸。基本思路是:選擇未知樣本一定范圍內(nèi)確定個數(shù)的K個樣本,該K個樣本大多數(shù)屬于某一類型,則未知樣本判定為該類型。實(shí)現(xiàn)步驟:1.初始化距離為最大值2.計(jì)算未知樣本和每個訓(xùn)練樣本的距離dist3.得到目前K個最臨近樣本中的最大距離maxdist4.如果dist小于maxdist,則將該訓(xùn)練樣本作為K-最近鄰樣本5.重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的距都算完6.統(tǒng)計(jì)K個最近鄰樣本中每個類別出現(xiàn)的次數(shù)7.選擇出現(xiàn)頻率最大的類別作為未知樣本的類別分類:KNN算法示例13.3數(shù)據(jù)挖掘的技術(shù)綠色點(diǎn)是正方形還是三角形?分類:KNN算法示例13.3數(shù)據(jù)挖掘的技術(shù)https://codepen.io/gangtao/pen/ayPVQzKNN算法的缺陷對于位置樣本X,通過KNN算法,我們顯然可以得到X應(yīng)屬于紅點(diǎn)但對于位置樣本Y,通過KNN算法我們似乎得到了Y應(yīng)屬于藍(lán)點(diǎn)的結(jié)論而這個結(jié)論直觀來看并沒有說服力。分類:KNN算法示例13.3數(shù)據(jù)挖掘的技術(shù)由上面的例子可見,該算法在分類時有個重要的不足是,當(dāng)樣本不平衡時,即:一個類的樣本容量很大,而其他類樣本數(shù)量很小時,很有可能導(dǎo)致當(dāng)輸入一個未知樣本時,該樣本的K個鄰居中大數(shù)量類的樣本占多數(shù)。但是這類樣本并不接近目標(biāo)樣本,而數(shù)量小的這類樣本很靠近目標(biāo)樣本。這個時候,我們有理由認(rèn)為該位置樣本屬于數(shù)量小的樣本所屬的一類,但是,KNN卻不關(guān)心這個問題,它只關(guān)心哪類樣本的數(shù)量最多,而不去把距離遠(yuǎn)近考慮在內(nèi)。因此,我們可以采用權(quán)值的方法來改進(jìn)。和該樣本距離小的鄰居權(quán)值大,和該樣本距離大的鄰居權(quán)值則相對較小,由此,將距離遠(yuǎn)近的因素也考慮在內(nèi),避免因一個樣本過大導(dǎo)致誤判的情況。分類:KNN算法示例13.3數(shù)據(jù)挖掘的技術(shù)預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。預(yù)測和分類的相同點(diǎn):兩者都需要構(gòu)建模型都用模型來估計(jì)未知值預(yù)測當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸預(yù)測和分類的不同點(diǎn)分類法主要是用來預(yù)測類標(biāo)號(分類屬性值)預(yù)測法主要是用來估計(jì)連續(xù)值(量化屬性值)預(yù)測13.3數(shù)據(jù)挖掘的技術(shù)典型預(yù)測方法線性回歸多元回歸非線性回歸聚類分析:將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。最大化類內(nèi)的相似性和最小化類間的相似性不像分類和預(yù)測分析標(biāo)號類的數(shù)據(jù)對象,聚類分析數(shù)據(jù)對象不考慮已知的標(biāo)號類聚類是一種無監(jiān)督分類法:沒有預(yù)先指定的類別;例如:對WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問模式城市規(guī)劃:根據(jù)類型、價格、地理位置等來劃分不同類型的住宅市場銷售:幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標(biāo)明確的市場計(jì)劃聚類13.3數(shù)據(jù)挖掘的技術(shù)把數(shù)據(jù)聚類成多個簇同一個簇中的數(shù)據(jù)相似不同簇中數(shù)據(jù)不相似非監(jiān)督學(xué)習(xí):沒有預(yù)先定義的類什么是聚類13.3數(shù)據(jù)挖掘的技術(shù)簇1簇

2奇異點(diǎn)應(yīng)用發(fā)現(xiàn)數(shù)據(jù)分布模式識別文檔聚類空間數(shù)據(jù)分析市場研究聚類的概念是模糊的13.3數(shù)據(jù)挖掘的技術(shù)多少個簇?4個簇2個簇6個簇聚類:K-Means13.3數(shù)據(jù)挖掘的技術(shù)012345678910012345678910K=2任意地選取k個對象作為簇的初始中心點(diǎn)把每個對象分配給最相近的中心更新簇的均值012345678910012345678910更新簇的均值重新分配重新分配聚類:K-Means13.3數(shù)據(jù)挖掘的技術(shù)原始數(shù)據(jù)點(diǎn)最優(yōu)聚類次最優(yōu)聚類聚類:K-Means算法13.3數(shù)據(jù)挖掘的技術(shù)https://codepen.io/gangtao/pen/vJaYya主要聚類分析方法分類劃分方法(PartitioningMethods)分層方法基于密度的方法基于表格的方法基于模型(Model-Based)的聚類方法聚類分析的方法13.3數(shù)據(jù)挖掘的技術(shù)關(guān)聯(lián)規(guī)則挖掘:在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。應(yīng)用:購物籃分析、交叉銷售等關(guān)聯(lián)分析13.3數(shù)據(jù)挖掘的技術(shù)離群點(diǎn)分析離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)通常孤立點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測中卻可以通過對罕見事件進(jìn)行孤立點(diǎn)分析而得到結(jié)論。應(yīng)用信用卡欺詐檢測移動電話欺詐檢測客戶劃分醫(yī)療分析(異常)離群點(diǎn)分析13.3數(shù)據(jù)挖掘的技術(shù)異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測故障檢測與診斷等異常檢測13.3數(shù)據(jù)挖掘的技術(shù)初識數(shù)據(jù)挖掘數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程數(shù)據(jù)挖掘的技術(shù)大數(shù)據(jù)挖掘1234第13章

數(shù)據(jù)挖掘基礎(chǔ)“大量”、“多源、異質(zhì)、復(fù)雜”、“動態(tài)”、“價值高但價值密度低”的大數(shù)據(jù)特征決定了大數(shù)據(jù)挖掘技術(shù)不同于之前的數(shù)據(jù)挖掘技術(shù)。大數(shù)據(jù)挖掘技術(shù)包括:高性能計(jì)算支持的分布式;并行數(shù)據(jù)挖掘技術(shù);面向多源、不完整數(shù)據(jù)的不確定數(shù)據(jù)挖掘技術(shù);面向復(fù)雜數(shù)據(jù)組織形式的圖數(shù)據(jù)挖掘技術(shù);面向非結(jié)構(gòu)化稀疏性的超高維數(shù)據(jù)挖掘技術(shù);面向價值高但價值密度低特征的特異群組挖掘技術(shù);面向動態(tài)數(shù)據(jù)的實(shí)時、增量數(shù)據(jù)挖掘技術(shù)等。大數(shù)據(jù)挖掘技術(shù)13.4大數(shù)據(jù)挖掘大數(shù)據(jù)的“大”通常是指PB級以上的,這與之前的數(shù)據(jù)挖掘技術(shù)針對的數(shù)據(jù)對象的規(guī)模不同。這一特征需要更高性能的計(jì)算平臺支持,考慮大規(guī)模數(shù)據(jù)的分布式、并行處理,對數(shù)據(jù)挖掘技術(shù)帶來的挑戰(zhàn)是I/O交換、數(shù)據(jù)移動的代價高,還需要在不同站點(diǎn)間分析數(shù)據(jù)挖掘模型間的關(guān)系。大數(shù)據(jù)環(huán)境下,需要新的云計(jì)算基礎(chǔ)架構(gòu)支撐(例如,Hadoop、Spark等)。并行分布式數(shù)據(jù)挖掘13.4大數(shù)據(jù)挖掘大數(shù)據(jù)挖掘的數(shù)據(jù)對象常常具有不確定、不完整的特點(diǎn),這要求大數(shù)據(jù)挖掘技術(shù)能夠處理不確定、不完整的數(shù)據(jù)集,并且考慮多源數(shù)據(jù)挖掘模型和決策融合。數(shù)據(jù)挖掘一直以來重視數(shù)據(jù)質(zhì)量。數(shù)據(jù)的質(zhì)量決定數(shù)據(jù)挖掘結(jié)果的價值。然而,大數(shù)據(jù)環(huán)境下,數(shù)據(jù)獲取能力逐漸高于數(shù)據(jù)分析能力。大數(shù)據(jù)挖掘技術(shù)要有更強(qiáng)地處理不確定、不完整數(shù)據(jù)集的能力。不確定數(shù)據(jù)挖掘13.4大數(shù)據(jù)挖掘大數(shù)據(jù)下,來自文本、圖像、視頻的數(shù)據(jù)挖掘應(yīng)用更加廣泛,非結(jié)構(gòu)化數(shù)據(jù)給數(shù)據(jù)挖掘技術(shù)帶來了新的要求,大數(shù)據(jù)挖掘算法設(shè)計(jì)要考慮超高維特征和稀疏性。超高維特征分析的需求使得深度學(xué)習(xí)技術(shù)成為熱點(diǎn)。大數(shù)據(jù)環(huán)境下,深度學(xué)習(xí)與大數(shù)據(jù)的結(jié)合,也將成為尋找大數(shù)據(jù)其中規(guī)律的重要支撐技術(shù)之一。超高維數(shù)據(jù)挖掘13.4大數(shù)據(jù)挖掘時序數(shù)據(jù)挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個研究主題。然而,大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的獲取更加高速,關(guān)鍵是處理數(shù)據(jù)的需求在實(shí)時性方面的要求更高。早期的數(shù)據(jù)挖掘總是能容忍分鐘級別,甚至更長時延的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論