




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Matlab數據分析第7章聚類分析7.1
簡介7.1.1聚類分析的類型1.按分類對象不同進行聚類7.1
簡介(1)R型聚類分析的主要作用1)不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。2)根據變量的分類結果以及它們之間的關系,可以選擇主要變量進行Q型聚類分析或回歸分析(R2選擇標準)。(2)Q型聚類分析的主要作用1)可以綜合利用多個變量的信息對樣本進行分析。2)分類結果直觀,聚類譜系圖清楚地表現數值分類的結果。3)聚類分析所得到的結果比傳統分類方法更細致、全面、合理。2.按分類對象的劃分進行聚類1)使用自我組織的特征圖或層次聚類,查找數據中可能的結構。2)使用聚類評估,查找給定聚類算法的“最佳”組數。7.1
簡介3.Matlab中常見的硬聚類算法(1)k均值(kMeans)聚類算法1)原理。2)最佳使用時機。(2)k中心(kMedoids)聚類算法1)原理。2)最佳使用時機。7.1
簡介(3)層次聚類算法1)原理。2)最佳使用時機。(4)自組織映射聚類算法1)原理。2)最佳使用時機。7.1
簡介4.Matlab中常見的軟聚類算法(1)模糊c均值聚類算法1)原理。2)最佳使用時機。(2)高斯混合模型聚類算法1)原理。2)最佳使用時機。7.1
簡介7.1.2聚類分析的依據1.距離7.1
簡介7.1
簡介2.夾角余弦3.相關系數7.2譜系聚類1.譜系聚類法基本思想1)聚類開始時將n個樣品(或p個變量)各自作為一類,并規定樣品之間的距離和類與類之間的距離。2)將距離最近的兩類合并成一個新類。3)計算新類與其他類之間的距離,重復進行兩個最近類的合并,每次減少一類,直至所有的樣品(或p個變量)合并成一類。2.譜系聚類法基本步驟1)選擇樣本間距離及類間距離。2)計算n個樣本兩兩之間的距離,得到距離矩陣。3)構造各類,每個類暫時只含有一個樣本。4)合并符合類間距離定義要求的兩類力一個新類。7.2譜系聚類7.2譜系聚類5)計算新類與當前各類的距離。6)畫出譜系聚類圖。7)作出結論,決定類的個數和類。3.Matlab中譜系聚類法的主要方法(1)pdist方法pdist方法的主要作用是計算構成樣品對的樣品之間的距離,調用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。7.2譜系聚類7.2譜系聚類(2)squareform方法squareform方法用來將pdist函數輸出的距離轉化為距離矩陣,也可將距離矩陣轉化為距離向量。1)z=squareform(y):將pdist函數輸出的距離向量轉化力距離矩陣。2)y=squareform(z):將距離矩陣轉化為距離向量。(3)linkage方法linkage函數用來創建系統聚類樹,調用格式如下:1)z=linkage(y):創建系統聚類樹,1是樣品對的距離向量,一般是pdist方法的輸出結果。2)z=linkage(y,method):利用method參數指定的方法創建系統聚類樹,method是字符串,可用字符串見表7-2。7.2譜系聚類(4)dendrogram方法dendrogram方法用于創建聚類樹形圖,調用格式為:(5)inconsistent函數inconsistent函數用來計算譜系聚類樹矩陣Z中每次并類得到的鏈接的不一致系數,調用格式力:7.2譜系聚類(6)clusterdata方法clusterdata函數調用了pdist、linkage和cluster函數,用來由原始樣本數據矩陣X創建系統聚類。例7.1設有5個樣品,分別表示北京、上海、安徽、陜西和新疆,每個樣品只測試了一個指標,指標值分別為1、2、6、8、11,若樣品間采用絕對值距離,下面用最短距離法對這5個樣品進行聚類。解:計算過程如下。1)計算距離矩陣,代碼如下,結果如圖7-9所示。7.2譜系聚類7.2譜系聚類2)分步聚類,繪制聚類樹形圖,代碼如下,結果如圖7-10所示。7.2譜系聚類例7.2(樣品聚類綜合案例)圖7-11所示2007年我國31個省、白治區、直轄市的城鎮居民家庭平均每人年消費性支出的8個主要數據變量,利用譜系聚類法,對各地區進行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數據,并進行標準化:2)調用clusterdata函數進行一步聚類:7.2譜系聚類3)分步聚類:4)作出聚類樹形圖,如圖7-12所示。5)確定分類個數。7.2譜系聚類7.2譜系聚類例7.3(變量聚類綜合案例)在全國服裝標準制定中,對某地區成年女子的14個部位尺寸(體型尺寸)進行了測量,根據測量數據計算得到14個部位尺寸之間的相關系數矩陣,試對14個部位進行聚類分析。7.2譜系聚類解:計算過程如下。1)讀取數據。2)把數據轉為距離向量,設xi和xj的相關系數為pij,定義它們之間的距離為3)調用linkage函數創建系統聚類樹。7.2譜系聚類4)繪制聚類樹形圖,作出的聚類樹形圖如圖7-14所示。7.3
k均值聚類7.3.1k均值聚類概述7.3
k均值聚類7.3
k均值聚類1)從數據集中隨機取k個元素,作次k個簇各自的中心。2)分別計算剩下的元素到h個簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3)根據聚類結果,重新計算個簇各自的中心,計算方法是取簇中所有元素各自維度的算術平均數。4)將數據集中全部元素按照新的中心重新聚類。5)重復第4)步,直到聚類結果不再變化。6)將結果輸出。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.2k均值聚類算法的Matlab函數1.kmeans函數(1)idx=kmeans(X,k)將n個觀測點分為k個類,輸入參數X為n×p的矩陣,矩陣的每行對應一個點,每列對應一個變量。(2)[idx,C]=kmeans(X,k)返回個類的類重心坐標矩陣,C是一個k×p的矩陣,第i行元素第i類的類重心坐標。(3)[idx,C,sumd」=kmeans(X,k)返回類內距離和(即類內各點與類重心距離之和)向量sumd,C是一個1xk的矩陣,第i行元素第i類的類內距離之和。(4)[idx,C,sumd,D]=kmeans(X,k)返回每個點與每個類重心之間距離矩陣D,D是一個n×k的矩陣,第i行第j列元素第i個點第j類重心之間的距離。(5)[…]=kmeans(X,k,參數1,值1,參數2,值2)允許用戶設置更多的參數及參數值,用來7.3
k均值聚類2.silhouette函數(1)silhouette(X,idx)根據樣本X和聚類結果idx繪制輪廓圖。(2)s=silhouette(X,idx)返回輪廓向量s,元素對應點的輪廓值。(3)[S,H]=
silhouette(X,idx)返回輪廓向量S和繪圖句柄H。(4)[S,H]=silhouette(X,idx,metric)
metric用來指定距離計算的方法,如'Euclidean'。7.3
k均值聚類例7.5在20世紀20年代,植物學家Fisher收集了150個inis標本的萼片長度、萼片寬度、花瓣長度和花瓣寬度的測量值,其中50個來自3個物種中的每一個。解:計算過程如下。1)準備模型:7.3
k均值聚類2)為了更好地理解聚類,首先以花瓣長度和花瓣寬度繪制散點圖,如圖7-24所示。7.3
k均值聚類控制kmeans函數所用的迭代算法,可用的參數名和參數值讀者可以在Matlab的命令窗口運行helpkmeans來學習。例7.4針對例7-1的數據,利用kmeans函數進行k均值聚類算法,代碼和結果如下:7.3
k均值聚類3)下面調用kmeans函數將數據集區分為三類,并繪制聚類輪廓圖。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.3k均值聚類算法的特點1)在k均值聚類算法中的k是事先給定的,這個k值的選定是非常難以估計的。2)在k均值聚類算法中,首先需要根據初始聚類中心來確定一個初始劃分,然后對初始劃分進行優化。3)k均值聚類算法需要不斷地進行樣本分類調整,不斷地計算調整后新的聚類中心,因此當數據量非常大時,算法的時間開銷也非常大。4)k均值聚類算法對一些離散點和初始k值敏感,不同的距離初始值對同樣的數據樣本可能得到不同的結果。7.3
k均值聚類7.3.4k均值聚類算法綜合應用例7.6examp:3.xls表列出了43↑國家和地區3年(1990年、2000年、2006年)的嬰兒死亡率和出生時預期壽命數據。7.3
k均值聚類解:計算過程如下。1)讀取數據:2)進行標準化變換:3)選取初始凝聚點進行聚類:7.3
k均值聚類4)繪制輪廓圖:7.3
k均值聚類5)查看聚類結果:7.4層次聚類7.4.1概述1)如何計算兩個點的距離?2)如何計算兩個類別之間的距離?①最鄰近距離(SingleLinkage),就是取兩個集合中距離最近的兩個點的距離作力這兩個集合的距離,容易造成一種叫做鏈接的效果,兩個聚類明明從“大局”上離得比較遠,但是由于其中個別的點距離比較近就被合并了,并且這樣合并之后鏈接效應會進一步擴大,最后會得到比較松散的聚類。②CompleteLinkage。③GroupAverage。1)待分割的聚類記G,在G中取出一個到其他點的平均距離最遠的點x,構成新聚類H。2)在G中選取這樣的點x',使得x'到G中其他點的平均距離減去x'到H中所有點的平均距離這個差值最大,將其歸入H中。7.4層次聚類3)重復上一個步驟,直到差值為負。7.4.2層次聚類算法的Matlab實現例7.7這里仍然以上面的iris數據集來實現層次聚類。7.4層次聚類7.4層次聚類7.4.3層次聚類算法的特點1)在凝聚層次聚類算法和分裂層次聚類算法中,都需要用戶提供所希望得到的聚類的單個數量和閾值作為聚類分析的終止條件,但對于復雜的數據來說這是很難事先判定的。2)由于層次聚類算法要使用距離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護理管理總結
- 腦癱的作業治療
- 護理三新項目實施路徑
- 核醫學科科室院感工作總結
- 2024屆江蘇省南京師范江寧分校中考數學猜題卷含解析
- 食品行業安全合規措施及服務
- 2025財富管理業務年終總結與未來計劃
- 金融服務行業風險質量保證措施
- 化工安全基礎知識
- 骨科護理教學大賽課件
- 鋁加工(深井鑄造)企業安全生產數字化改造指引試行
- 控制在護理管理中的應用
- 《醫學美學導論》課件
- 《倉儲物流管理》課件:優化倉儲與物流效率
- 商場超市公司章程
- 1與食品經營相適應的操作流程
- 農險理賠培訓
- 制藥車間5S標準化管理
- 寫字樓租賃技巧培訓
- T-CEEAS 003-2024 養老合規師職業技能評價標準
- 鋼筋混凝土蓄水池設計方案
評論
0/150
提交評論