《機器學習從入門到精通》課件-第8章聚類_第1頁
《機器學習從入門到精通》課件-第8章聚類_第2頁
《機器學習從入門到精通》課件-第8章聚類_第3頁
《機器學習從入門到精通》課件-第8章聚類_第4頁
《機器學習從入門到精通》課件-第8章聚類_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第8章

聚類算法8.1聚類分析的基礎(chǔ)知識8.2K-means算法8.3層次聚類8.4密度聚類8.5聚類分析模型評估8.1聚類分析的基礎(chǔ)知識所謂的聚類就是對大量的未知標注的數(shù)據(jù)集,按照數(shù)據(jù)內(nèi)部存在的數(shù)據(jù)特征將數(shù)據(jù)集劃分為多個不同的類別,的目的是使類別內(nèi)的數(shù)據(jù)比較相似,類別之間的數(shù)據(jù)相似度比較大。8.1聚類分析的基礎(chǔ)知識8.1.2聚類分析的距離計算數(shù)據(jù)可以分為很多類,有連續(xù)屬性的數(shù)據(jù),有文檔數(shù)據(jù),對于這些不同的數(shù)據(jù)來說聚類分析往往是通過距離計算的方式來進行聚類,距離計算的方式根據(jù)不同類型的數(shù)據(jù)有如下不同的方法:1)對于連續(xù)屬性的數(shù)據(jù)來說2)對于文檔數(shù)據(jù)來說8.1聚類分析的基礎(chǔ)知識8.1.3基站商圈數(shù)據(jù)準備移動終端的普及,手機用戶時間序列的手機定位數(shù)據(jù),映射到現(xiàn)實的地理空間位置,即可完整、客觀地還原出手機用戶的現(xiàn)實活動軌跡,從而挖掘出人口空間分布與活動聯(lián)系的特征信息。(移動通信網(wǎng)絡(luò)的信號覆蓋邏輯上被設(shè)計成由若干六邊形的基站小區(qū)相互鄰接而構(gòu)成的蜂窩網(wǎng)絡(luò)現(xiàn)狀服務(wù)區(qū))8.2K-means算法

8.2K-means算法K-Means聚類的算法過程從N個樣本數(shù)據(jù)中隨機選取K個對象作為初始的聚類中心;分別計算每個樣本到各個聚類中心的距離,將對象分配到距離最近的聚類中;所有對象分配完成后,重新計算K個聚類的中心;與前一次計算得到得K個聚類中心比較,如果聚類中心發(fā)生變化,轉(zhuǎn)2),否則轉(zhuǎn)5);當質(zhì)心不發(fā)生變化時停止并輸出聚類結(jié)果。8.2K-means算法

8.2K-means算法3、K-means算法的優(yōu)缺點K-means算法的優(yōu)點是理解容易,聚類效果不錯,在處理大數(shù)據(jù)集的時候,該算法可以保證較好的伸縮性和高效率,當簇近似高斯分布的時候,效果非常好。但K-means算法并不是萬能的,通過對該過程的理解可以看出來,K-means算法對初始值的敏感度是非常強的,選擇不同的初始值可能導致不同的簇劃分結(jié)果。

8.2K-means算法8.2.2K-means算法的應用在sklearn中集成了K-means算法,可以通過調(diào)用KMeans()函數(shù)通過之前整理好的數(shù)據(jù),訓練屬于自己的模型。KMeans()函數(shù)中包含的主要參數(shù)有:n_clusters:即的k值,一般需要多試一些值以獲得較好的聚類效果。max_iter:最大的迭代次數(shù),一般如果是凸數(shù)據(jù)集的話可以不過這個值,如果數(shù)據(jù)集不是凸的,可能很難收斂,此時可以指定最大的迭代次數(shù)讓算法可以及時退出循環(huán)。n_init:用不同的初始化質(zhì)心運行算法的次數(shù),由于K-Means是結(jié)果受初始值影響的局部最優(yōu)的迭代算法,因此需要多試幾次以選擇一個較好的聚類效果,默認是10,一般不需要修改。如果K值較大,則可以適當增大這個值。init:即初始值選擇的方式,可以完全隨機選擇‘random’,或者自己指定初始化的k個質(zhì)心。一般建議使用默認的‘K-means’。algorithm:有“auto”,“full”or“elkan”三種選擇。“full”就是傳統(tǒng)的K-means算法,“elkan”是原理篇講的elkanK-Means算法。8.3層次聚類8.3.1層次聚類原理層次聚類是通過距離來判斷兩個簇之間的相似度的,距離最小的兩個簇將它判斷為兩個簇之間的相似程度最高。那么通過距離的方式有幾種方式來進行判斷:1)最小距離,即單鏈接SingleLinkage,它是由兩個簇的最近樣本決定。2)最大距離,即全鏈接CompleteLinkage,它是由兩個簇之間的最遠樣本來決定。3)平均距離,即均鏈接AverageLinkage,它是由兩個簇所有的樣本共同決定。1)和2)都容易受到極端值的影響,而第3)種方法的計算量是比較大的,但是這種度量的方式往往又是最合理的。8.3層次聚類8.3.2層次聚類算法的應用sklearn庫下的層次聚類方法是集成在sklearn.cluster的AgglomerativeClustering()函數(shù)中,包含了主要的三個重要的參數(shù),分別為n_clusters,linkage,affinity。n_clusters:構(gòu)造函數(shù)中最終要進行簇類的個數(shù)按照常理來說,凝聚層次聚類是不需要指定簇的個數(shù)的,但是Sklearn的這個類需要指定簇的個數(shù)。算法會根據(jù)簇的個數(shù)判斷最終的合并依據(jù),這個參數(shù)會影響聚類質(zhì)量。Linkage:是衡量簇與簇之間的遠近程度的方法具體說來包括最小距離,最大距離和平均距離三種方式。對應于簇融合的方法,即簇間觀測點之間的最小距離作為簇的距離,簇間觀測點之間的最大距離作為簇的距離,以及簇間觀測點之間的平均距離作為簇的距離。一般說來,平均距離是一種折中的方法。Affinity:連接度量,簇間距離的計算方法包括各種歐式空間的距離計算方法以及非歐式空間的距離計算方法。如果該參數(shù)=‘euclidean’,則代表該方法中簇間距離的計算方法是采用的歐幾里得的方式來進行的。8.4密度聚類8.4.1密度聚類原理學習了K-means算法,但是從K-means算法的缺點則不太適用于凸數(shù)據(jù)集中,那么這節(jié)講的密度聚類DBSCAN(Density-basedspatialclusteringofapplicationswithnoise),則即可以適用于凸樣本集又可以適用于非凸樣本集中來。目的就是通過找到幾個由密度可達關(guān)系導出的最大的密度相連樣本的集合,將其判斷為同一個類別,也就是所說的一個簇。8.4密度聚類8.4.2密度聚類算法的應用關(guān)鍵代碼如下:fromsklearn.clusterimportDBSCANmodel=DBSCAN(eps=0.5,min_samples=5)model.fit(data_std)8.5聚類分析模型評估8.5.1外部度量外部度量,即需要有標簽,即數(shù)據(jù)的真實類別。外部度量的比較和之前講過的分類、回歸模型的分類方法是相同的,衡量指標有如下:均一性:一個簇中只包含一個類別的樣本,則滿足均一性;其實也可以認為就是正確率(每個聚簇中正確分類的樣本數(shù)占該聚簇總樣本數(shù)的比例和)完整性:用來衡量的是同類別樣本被歸類到相同簇中的比例;每個聚簇中正確分類的樣本數(shù)占該類型的總樣本數(shù)比例的和V-measure:均一性和完整性的加權(quán)平均8.5聚類分析模型評估8.5.1外部度量Randindex(RI,蘭德系數(shù)),RI取值范圍為[0,1],Ri的值越大意味著聚類結(jié)果與真實情況越吻合。調(diào)整蘭德系數(shù)(ARI,AdjustedRndIndex),ARI取值范圍[-1,1],值越大,表示聚類結(jié)果和真實情況越吻合。從廣義的角度來說,ARI是衡量兩個數(shù)據(jù)分布的吻合程度的。8.5聚類分析模型評估8.5.2內(nèi)部評估

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論