第十九章 聚類分析課件_第1頁
第十九章 聚類分析課件_第2頁
第十九章 聚類分析課件_第3頁
第十九章 聚類分析課件_第4頁
第十九章 聚類分析課件_第5頁
已閱讀5頁,還剩35頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十九章聚類分析

(ClusteringAnalysis)第十九章聚類分析ContentSimilaritycoefficientHierarchicalclusteringanalysis

Dynamicclusteringanalysis

Orderedsampleclusteringanalysis

第十九章聚類分析判別分析:在已知分為若干個類的前提下,獲得判別模型,并用來判定觀察對象的歸屬。

聚類分析:將隨機現象歸類的統計學方法,在不知道應分多少類合適的情況下,試圖借助數理統計的方法用已收集到的資料找出研究對象的適當歸類方法。已成為發掘海量基因信息的首選工具。

二者都是研究分類問題的多元統計分析方法。第十九章聚類分析聚類分析屬于探索性統計分析方法,按照分類目的可分為兩大類。

例如測量了n個病例(樣品)的m個變量(指標),可進行:

(1)R型聚類:又稱指標聚類,是指將m個指標歸類的方法,其目的是將指標降維從而選擇有代表性的指標。

(2)Q型聚類:又稱樣品聚類,是指將n個樣品歸類的方法,其目的是找出樣品間的共性。第十九章聚類分析無論是R型聚類或是Q型聚類的關鍵是如何定義相似性,即如何把相似性數量化。聚類的第一步需要給出兩個指標或兩個樣品間相似性的度量——相似系數(similaritycoefficient)的定義。第十九章聚類分析

第一節相似系數

1.R型(指標)聚類的相似系數

X1,X2,…,Xm表示m個變量,R型聚類常用簡單相關系數的絕對值定義變量與間的相似系數:

絕對值越大表明兩變量間相似程度越高。

同樣也可考慮用Spearman秩相關系數定義非正態變量與間的相似系數。當變量均為定性變量時,最好用列聯系數定義類間的相似系數。

第十九章聚類分析2.Q型(樣品)聚類常用相似系數

將n例(樣品)看成是m維空間的n個點,用兩點間的距離定義相似系數,距離越小表明兩樣品間相似程度越高。

(1)歐氏距離:歐氏距離(Euclideandistance)

(2)絕對距離:絕對距離(Manhattandistance)

(3)Minkowski距離:

絕對距離是q=1時的Minkowski距離;歐氏距離是q=2時的Minkowski距離。Minkowski距離的優點是定義直觀,計算簡單;缺點是沒有考慮到變量間的相關關系。基于此引進馬氏距離。

第十九章聚類分析(4)馬氏距離:用表示m個變量間的樣本協方差矩陣,馬氏距離(Mahalanobisdistance)的計算公式為

其中向量。不難看出,當(單位矩陣)時,馬氏距離就是歐氏距離的平方。

以上定義的4種距離適用于定量變量,對于定性變量和有序變量必須在數量化后方能應用。第十九章聚類分析

第二節系統聚類

系統聚類(hierarchicalclusteringanalysis)是將相似的樣品或變量歸類的最常用方法,聚類過程如下:

1)開始將各個樣品(或變量)獨自視為一類,即各類只含一個樣品(或變量),計算類間相似系數矩陣,其中的元素是樣品(或變量)間的相似系數。相似系數矩陣是對稱矩陣;

2)將相似系數最大(距離最小或相關系數最大)的兩類合并成新類,計算新類與其余類間相似系數;

重復第二步,直至全部樣品(或變量)被并為一類。第十九章聚類分析一、類間相似系數的計算

系統聚類的每一步都要計算類間相似系數,當兩類各自僅含一個樣品或變量時,兩類間的相似系數即是兩樣品或變量間的相似系數或,按第一節的定義計算。第十九章聚類分析當類內含有兩個或兩個以上樣品或變量時,計算類間相似系數有多種方法可供選擇,下面列出5種計算方法。用分別表示兩類,各自含有個樣品或變量。

1.最大相似系數法類中的個樣品或變量與類中的個樣品或變量兩兩間共有個相似系數,以其中最大者定義為與的類間相似系數。

注意距離最小即相似系數最大。

2.最小相似系數法類間相似系數計算公式為

3.重心法(僅用于樣品聚類)用分別表示的均值向量(重心),其分量是各個指標類內均數,類間相似系數計算公式為

第十九章聚類分析

4.類平均法(僅用于樣品聚類)對類中的個樣品與類中的個樣品兩兩間的個平方距離求平均,得到兩類間的相似系數

類平均法是系統聚類方法中較好的方法之一,它充分反映了類內樣品的個體信息。

第十九章聚類分析5.離差平方和法又稱Ward法,僅用于樣品聚類。此法效仿方差分析的基本思想,即合理的分類使得類內離差平方和較小,而類間離差平方和較大。假定n個樣品已分成g類,是其中的兩類。此時有個樣品的第k類的離差平方和定義為:,其中為類內指標的均數。所有g類的合并離差平方和為。如果將與合并,形成g-1類,它們的合并離差平方和。由于并類引起的合并離差平方和的增量定義為兩類間的平方距離。顯然,當n個樣品各自成一類時,n類的合并離差平方和為0。第十九章聚類分析例19-1測量了3454名成年女子身高(X1)、下肢長(X2)、腰圍(X3)和胸圍(X4),計算得相關矩陣:

試用系統聚類法將這4個指標聚類。

本例是R型(指標)聚類,相似系數選用簡單相關系數,類間相似系數采用最大相似系數法計算。第十九章聚類分析聚類過程如下:

(1)各個指標獨自成一類G1={X1},G2={X2},G3={X3},G4={X4},共4類。

(2)將相似系數最大的兩類合并成新類,由于G1和G2類間相似系數最大,等于0.852,將兩類合并成G5={X1,X2},形成3類。計算G5與G3、G4間的類間相似系數

G3,G4,G5的類間相似矩陣

第十九章聚類分析

(3)由于G3和G4類間相似系數最大,等于0.732,將兩類合并成G6={G3,G4},形成兩類。計算G6與G5間的類間相似系數。

(4)最終將G5,G6合并成G7={G5,G6},所有指標形成一大類。

第十九章聚類分析根據聚類過程,繪制出系統聚類圖(見圖19-1)。圖中顯示分成兩類較好:{X1,X2},{X3,X4},即長度指標歸為一類,圍度指標歸為另一類。

身高 下肢長 腰圍 胸圍 圖19-14個指標聚類的系統聚類圖0.0850.7320.234第十九章聚類分析例19-2今測得6名運動員4個運動項目(樣品)的能耗、糖耗的均數見表19-1,欲對運動項目歸類,以便提供相應的膳食標準,提高運動成績。試用樣品系統聚類法將運動項目歸類。

表19-14個運動項目的測定值運動項目名稱能耗

X1(焦耳/分、m2)糖耗X2(%)負重下蹲G127.89261.421.3150.688引體向上G223.47556.830.1740.088俯臥撐G318.92445.13-1.001-1.441仰臥起坐G420.91361.25-0.4880.665第十九章聚類分析本例選用歐氏距離,類間距離選用最小相似系數法。為了克服變量量綱的影響,分析前先將變量標準化,分別是Xi的樣本均數與標準差。變換后的數據列在表19-1的,列。第十九章聚類分析聚類過程如下:

(1)計算4個樣品間的相似系數矩陣,樣品聚類中又稱為距離矩陣。負重下蹲與引體向上之間的距離按公式(19-3)計算得

同樣負重下蹲與俯臥撐之間的距離

同理,計算出距離矩陣

第十九章聚類分析(2)G2,G4間距離最小,將G2,G4并成一新類G5={G2,G4}。應用最小相似系數法,按公式(19-8)計算G5與其他各類之間的距離

G1,G3,G5的距離矩陣

(3)G1,G5間距離最小,將G1,G5并成一新類G6={G1,G5}。計算G6與G3之間的距離

(4)最終將G1,G6合并成G7={G1,G6},所有指標形成一大類。第十九章聚類分析

根據聚類過程,繪制出系統聚類圖(見圖19-2)。結合系統聚類圖和專業知識認為分成兩類較好:{G1,G2,G4},{G3}。負重下蹲、引體向上、仰臥起坐三個運動項目體能消耗較大,訓練時應提高膳食標準。

第十九章聚類分析圖19-24個運動項目樣品聚類的系統聚類圖0.878

3.145

1.803

第十九章聚類分析聚類實例分析

相似系數的定義以及類間相似系數的定義的不同將導致系統聚類結果有所差異。聚類分析的結果解釋除了要了解聚類方法外,還必須結合專業知識。

第十九章聚類分析例19-3調查了27名瀝青工和焦爐工的年齡、工齡、吸煙情況,檢測了血清P21、P53、外周血淋巴細胞SCE、染色體畸變數和染色體畸變細胞數。數據列于表19-3,其中P21倍數=P21檢測值/對照組P21均數。試用系統聚類法將27名工人歸類。

第十九章聚類分析表19-3瀝青工和焦爐工的生物標志物檢測及聚類分析結果工人編號(樣品號)年齡工齡吸煙支/d血清P21P21倍數P53SCE染色體畸變數染色體畸變細胞數聚類結680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.110021157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221第十九章聚類分析本例選擇了歐氏距離下的最小相似系數法、類平均法和離差平方和法對數據進行聚類分析。分析結果分別見圖19-3、圖19-4、圖19-5。數據分析前,各變量已作標準化處理。第十九章聚類分析

圖19-327名瀝青工和焦爐工的最小相似系數法系統聚類圖第十九章聚類分析圖19-427名瀝青工和焦爐工的類平均法系統聚類圖

第十九章聚類分析圖19-527名瀝青工和焦爐工離差平方和法的系統聚類圖第十九章聚類分析三種聚類結果有較大的出入,可見這些方法分類效果是有差異的,特別是在分類變量較多時差異愈加明顯,這就要求在聚類分析前,盡可能地選擇有效變量,如本例的P21和P53倍數。詳細解讀聚類圖,一般都能夠獲得許多有用的信息。第十九章聚類分析結合專業知識,本例認為類平均法聚類結果比較合理,分類結果列入表19-3最后一欄。它將{10,20,23}號工人分為一類,其余分為另一類。研究者最終發現10,20,23號工人為癌癥高危人群。根據離差平法和法聚類圖,不難發現{10,20,23,8,16,26}號聚在一類,提示8,16,26號工人也可能是癌癥高危人群之一。第十九章聚類分析以下列出類平均法具體聚類過程,供參考。類平均法系統聚類過程聚類步驟兩類合并歐氏距離1步(樣品18,樣品21)合并成新1類1.18562步(樣品5,樣品13)合并成新2類1.49693步(樣品12,樣品24)合并成新3類1.52254步(樣品20,樣品23)合并成新4類1.60505步(新1類,樣品19)合并成新5類1.70796步(樣品6,樣品11)合并成新6類1.82437步(樣品8,樣品26)合并成新7類1.90988步(樣品4,樣品7)合并成新8類1.93179步(樣品1,樣品14)合并成新9類2.162010步(樣品9,樣品15)合并成新10類2.200711步(新6類,樣品27)合并成新11類2.383312步(新7類,樣品22)合并成新12類2.559013步(新3類,樣品25)合并成新13類2.795614步(新5類,新2類)合并成新14類2.869615步(新4類,樣品16)合并成新15類2.960516步(新12類,新8類)合并成新16類3.112717步(新10類,樣品17)合并成新17類3.434618步(新11類,新9類)合并成新18類3.580819步(新16類,新13類)合并成新19類3.937920步(新18類,樣品3)合并成新20類4.082421步(新15類,樣品10)合并成新21類4.415522步(新20類,新14類)合并成新22類4.542023步(新19類,樣品2)合并成新23類5.247924步(新23類,新22類)合并成新24類6.108625步(新24類,新21類)合并成新25類6.910226步(新25類,新17類)合并成新26類7.1642第十九章聚類分析

第三節

動態樣品聚類

當待分類的樣品較多時,如海量數據挖掘,系統聚類分析將耗費較多的計算資源來儲存相似系數矩陣,計算速度緩慢。另外,用系統聚類方法聚類,樣品一旦歸類后就不再變動了,這就要求分類十分準確。針對系統聚類方法的這些缺陷,統計學者提出所謂動態聚類分析方法,這種分類方法既解決了計算速度問題,又能隨著聚類的進展對樣品的歸類進行調整。第十九章聚類分析動態樣品聚類的原理是:首先確定幾個有代表性的樣品,稱之為凝聚點,作為各類的核心,然后將其他樣品逐一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論