




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第4章聚類模型課程學(xué)習(xí)內(nèi)容4.1聚類模型的概念4.2聚類模型的算法原理4.3基于Python的聚類建模實例4.4基于Spark的聚類建模實例4.1聚類模型的概念4.1.1聚類模型概述
聚類是一種無監(jiān)督的學(xué)習(xí)算法,就是按照某個特定標準(如距離準則)把一個數(shù)據(jù)集分割成不同的簇(簇也稱為類),使得同一個簇內(nèi)的數(shù)據(jù)對象的相似性盡可能大,同時不在同一個簇中的數(shù)據(jù)對象的差異性也盡可能地大。組間距離最大化組內(nèi)距離最小化4.1聚類模型的概念
聚類的目的是將整個數(shù)據(jù)集分成不同的簇,具體實現(xiàn)過程如下:1.數(shù)據(jù)預(yù)處理:將數(shù)據(jù)集進行清洗、去重、缺失值處理等操作,使得數(shù)據(jù)集符合聚類算法的要求。2.特征選擇:選擇合適的特征作為聚類的依據(jù)。3.模型訓(xùn)練與對數(shù)據(jù)的預(yù)測:選擇適合的聚類算法對導(dǎo)入的數(shù)據(jù)進行訓(xùn)練,利用訓(xùn)練好的模型預(yù)測數(shù)據(jù)。4.分析與決策:通過評估指標對聚類結(jié)果進行評估選擇最優(yōu)的聚類數(shù)和聚類結(jié)果。根據(jù)聚類結(jié)果分析不同類別數(shù)據(jù)。4.1聚類模型的概念
4.1聚類模型的概念
4.1聚類模型的概念
4.1聚類模型的概念4.1聚類模型的概念4.1.3聚類算法的評估
有內(nèi)部質(zhì)量評價和外部質(zhì)量評價兩個標準:1.內(nèi)部質(zhì)量評價標準(1)CH指標 CH指標通過計算簇內(nèi)各點與簇中心的距離平方和來度量簇內(nèi)相似度,通過計算簇間中心點與數(shù)據(jù)集中心點距離平方和來度量數(shù)據(jù)集的分離度,CH指標由分離度與緊密度的比值得到,值越大表示簇內(nèi)各數(shù)據(jù)點聯(lián)系越緊密,簇間越分散,聚類效果越好。4.1聚類模型的概念(2)輪廓系數(shù)
輪廓系數(shù)同時兼顧了聚類的內(nèi)聚度和分離度,取值范圍[-1,1],數(shù)值越大聚類效果越好。(3)DB指標 DB指標用來衡量任意兩個簇的簇內(nèi)距離之和與簇間距離之比,值越小表示簇內(nèi)相似度越高,簇間相似度越低4.1聚類模型的概念4.1聚類模型的概念4.1聚類模型的概念2.外部質(zhì)量評價標準(1)蘭德指標
蘭德指標用于衡量兩個簇的相似度,取值范圍[0,1],值越大意味著聚類結(jié)果與真實情況越吻合。對于隨機結(jié)果蘭德指標并不能保證分數(shù)接近零。為了實現(xiàn)“在聚類結(jié)果隨機產(chǎn)生的情況下,指標應(yīng)該接近零”,提出了調(diào)整蘭德系數(shù)。4.1聚類模型的概念(2)調(diào)整蘭德指標
調(diào)整蘭德指標是蘭德指標的一個改進版本,目的是為了去掉隨機標簽對于蘭德指標評估結(jié)果的影響,用于衡量兩個數(shù)據(jù)分布的吻合程度。調(diào)整蘭德指標的取值范圍為[-1,1],值越大意味著聚類結(jié)果與真實情況越吻合。(3)調(diào)整互信息
調(diào)整互信息基于預(yù)測簇向量與真實簇向量的互信息值衡量其相似度,取值范圍[-1,1],值越大表示相似度越高值接近0表示簇向量隨機分配。4.1聚類模型的概念(4)同質(zhì)性、完整性和V測度
同質(zhì)性用來度量每個簇只包含單個類別樣本的程度,即每個簇中正確分類的樣本數(shù)占樣本總數(shù)的比例,即一個簇只包含一個類別的樣本則滿足同質(zhì)性。
完整性用來度量同類型樣本被歸類到相同的簇的程度即每個簇中正確分類的樣本數(shù)占所有相關(guān)類型的總樣本數(shù)的比例之和,即同類別樣本被歸類到相同簇中則滿足完整性。 V測度結(jié)合同質(zhì)性和完整性兩個因素評價簇向量間的相似度。4.2聚類模型的算法原理
聚類算法一般可以用基于劃分、基于層次、基于密度、基于網(wǎng)格、基于模型、基于圖等方式來進行分類聚類模型基于劃分的聚類算法k-means算法、k-medoids算法、CLARANS算法基于層次的聚類算法AGNES算法、DIANA算法、BIRCH算法、CURE算法、CHAMELEON算法等基于密度的聚類算法DBSCAN算法、OPTICS算法、DENCLUE算法等基于模型的聚類算法GMM算法、COBWEB算法、SOM算法基于網(wǎng)格的聚類算法STING算法、CLIQUE算法、WAVE-CLUSTER算法4.2聚類模型的算法原理4.2.1K均值算法
K均值算法是一個迭代求解的聚類算法,其基本思想是將數(shù)據(jù)集劃分為k個簇(k由用戶指定),使得每個簇內(nèi)部的樣本數(shù)據(jù)相似度高,不同簇之間樣本數(shù)據(jù)的差異性大。流程如下:(1)初始化:隨機的選擇k個樣本點作為k個初始的聚類中心(2)對樣本進行聚類:計算數(shù)據(jù)集D中的每個樣本到每個聚類中心的距離,將數(shù)據(jù)分配到與其距離最近的聚類中心所在的簇。(3)計算新的聚類中心:計算當(dāng)前每個簇的均值作為新的聚類中心。(4)重復(fù)(2)~(3),直到滿足終止條件。4.2聚類模型的算法原理4.2.2凝聚聚類算法
該算法的基本思想是,首先將每個數(shù)據(jù)點看作一個獨立的類別,然后通過計算不同類別之間的距離,將距離最近的兩個類別合并成一個新的類別,直到所有的數(shù)據(jù)點被合并為一個類別為止。凝聚聚類算法的流程如下:(1)計算所有樣本之間的距離,得到距離矩陣。(2)將每個樣本都當(dāng)做一個簇。(3)計算每兩個簇之間的距離,將距離最近的兩個簇進行合并。(4)更新樣本的距離矩陣。(5)重復(fù)執(zhí)行(2)~(4),直到所有樣本都合并為一個簇為止4.2聚類模型的算法原理4.2.3DBSCAN算法 DBSCAN算法是一種基于密度的聚類算法,其基本思想是將簇定義為密度相連的點的最大集合。數(shù)據(jù)稠密的地方相似度高,數(shù)據(jù)稀疏區(qū)域是分界線,該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇。在DBSCAN算法中將數(shù)據(jù)點分為核心點(稠密區(qū)域內(nèi)部的點)、邊界點(稠密區(qū)域邊緣上的點)、噪音點(稀疏區(qū)域中的點)。DBSCAN算法的流程如下:(1)任選一個未被訪問的點,找出與其距離小于或等于eps的所有附近點。4.2聚類模型的算法原理(2)如果附近點的數(shù)量大于或等于MinPts,則當(dāng)前點與其附近點形成一個簇,將該點標記為已訪問。然后遞以相同的方法處理該簇內(nèi)所有未被訪問的點,從而對簇進行擴展。(3)如果附近點的數(shù)量小于MinPts,則該點暫時被標記為噪聲點。結(jié)束本次循環(huán),跳轉(zhuǎn)到步驟(1)繼續(xù)執(zhí)行。(4)重復(fù)執(zhí)行步驟(1)~(3),直到簇內(nèi)所有的點都被標記為已訪問的點。如果簇充分地被擴展,即簇內(nèi)的所有點被標記為已訪問,然后用同樣的算法去處理未被訪問的點。(5)一旦完成了當(dāng)前簇的聚類,就檢索和處理新的未訪問的點,重復(fù)上述(1)~(5)過程,直到所有點被標記為屬于一個簇或是噪聲。4.2聚類模型的算法原理4.2.4高斯混合模型算法GMM
GMM算法的基本思想是用多個高斯分布函數(shù)去近似任意形狀的概率分布,所以GMM就是由多個單高斯密度分布(Gaussian)組成的,每個Gaussian叫一個“Component”,這些“Component”線性加和即為GMM的概率密度函數(shù)。將待聚類的數(shù)據(jù)點看成是分布的采樣點,通過采樣點利用類似極大似然估計的方法估計高斯分布的參數(shù),求出參數(shù)(用EM算法求解)即得出了數(shù)據(jù)點對分類的隸屬函數(shù)。4.2聚類模型的算法原理GMM算法流程如下:(1)設(shè)置k的個數(shù),即初始化高斯混合模型的成分個數(shù)。(隨機初始化每個簇的高斯分布參數(shù)均值和方差,也可觀察數(shù)據(jù)給出一個相對精確的均值和方差)(2)計算每個數(shù)據(jù)點屬于每個高斯模型的概率,即計算后驗概率。(點越靠近高斯分布的中心,則概率越大,即屬于該簇可能性越高)。(3)計算參數(shù)使得數(shù)據(jù)點的概率最大化,使用數(shù)據(jù)點概率的加權(quán)來計算這些新的參數(shù),權(quán)重就是數(shù)據(jù)點屬于該簇的概率(4)重復(fù)迭代(2)和(3)直到收斂。4.2聚類模型的算法原理4.2.5二分K均值算法
二分K均值算法的基本思想是將所有點作為一個簇,將該簇一分為二之后,選擇能最大限度降低聚類代價函數(shù)(SSE誤差平方和)的簇劃分為兩個簇,不斷重復(fù)基于SSE的劃分過程,直到簇的數(shù)目等于用戶給定的數(shù)目k為止。SSE是誤差平方和,統(tǒng)計參數(shù)計算的是擬合數(shù)據(jù)和原始數(shù)據(jù)對應(yīng)點的誤差的平方和。SSE越接近于0,說明模型選擇和擬合更好,數(shù)據(jù)預(yù)測也越成功。
二分K均值算法流程如下:(1)將所有的點看成一個簇。(2)當(dāng)簇數(shù)目小于k時,對每一個簇計算總誤差,在當(dāng)前簇內(nèi)進行k均值聚類,k的值為2,計算將該類一分為二后總誤差;選擇使得誤差最小的那個簇進行劃分。4.2聚類模型的算法原理4.2.6隱式狄利克雷分配算法LDA
LDA是生成模型,LDA算法是基于貝葉斯模型的,涉及到貝葉斯模型離不開“先驗分布”、“數(shù)據(jù)(似然)”和“后驗分布”。在貝葉斯學(xué)派中有“先驗分布”+“數(shù)據(jù)(似然)”=“后驗分布”。算法流程如下:(1)隨機生成K個話題的單詞分布。(2)隨機生成M個文本的話題分布。(3)隨機生成M個文本的Nm個單詞,首先按照多項分布隨機生成一個話題,然后按照多項分布隨機生成一個單詞。4.3基于Python的聚類建模實例【例4-3】使用k-means算法對不同種類的鳶尾花進行聚類分析,代碼如下:4.3基于Python的聚類建模實例【例4-4】使用凝聚聚類算法對不同種類的鳶尾花進行聚類分析,代碼如下。4.3基于Python的聚類建模實例4.3基于Python的聚類建模實例【例4-5】使用DBSCAN算法對不同種類的鳶尾花進行聚類分析,代碼如下。4.3基于Python的聚類建模實例4.3基于Python的聚類建模實例【例4-6】使用GMM聚類算法對不同種類的鳶尾花進行聚類分析,代碼如下。4.3基于Python的聚類建模實例4.3基于Python的聚類建模實例4.4基于Spark的聚類建模實例【例4-7】利用K-means算法建立鳶尾花聚類模型,代碼如下:4.4基于Spark的聚類建模實例4.4基于Spark的聚類建模實例4.4基于Spark的聚類建模實例【例4-8】利用GMM算法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年醫(yī)藥流通行業(yè)供應(yīng)鏈可視化與成本控制策略研究報告
- 中國儲能電池市場2025年能源資源應(yīng)用分析報告
- 河北省廊坊市2025屆英語八年級第二學(xué)期期末復(fù)習(xí)檢測模擬試題含答案
- 保安崗位科目題庫及答案
- 2025年家具制造業(yè)個性化定制生產(chǎn)模式下的個性化定制生產(chǎn)模式下的產(chǎn)業(yè)競爭力分析報告
- 安全注射管理試題及答案
- 安全試題分類及答案大全
- 安全環(huán)保試題題庫及答案
- 溝通培訓(xùn)課件模板
- 學(xué)校禮儀接待培訓(xùn)課件
- 西鐵城操作說明書
- 初中家庭教育指導(dǎo)案例
- 翡翠店面計劃書
- 《危險化學(xué)品重大危險源監(jiān)督管理暫行規(guī)定》解讀
- 陪伴教育機器人簡介演示
- 年產(chǎn)10萬噸12度葡萄酒工廠設(shè)計說明書樣本
- 高考前后心理疏導(dǎo)應(yīng)急預(yù)案
- 堅定理想信念教學(xué)課件
- 監(jiān)理抽檢表 - 09涵洞工程
- 斗式提升機功率計算
- 某機械加工公司應(yīng)急演練計劃
評論
0/150
提交評論