




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章聚類分析第一節
引言第二節
相似性的量度第三節
系統聚類分析法第四節
K均值聚類分析
第五節
有序樣品的聚類分析法
第六節
實例分析與計算機實現第一節引言“物以類聚,人以群分”。對事物進行分類,是人們認識事物的出發點,也是人們認識世界的一種重要方法。因此,分類學已成為人們認識世界的一門基礎科學。在生物、經濟、社會、人口等領域的研究中,存在著大量量化分類研究。例如:在生物學中,為了研究生物的演變,生物學家需要根據各種生物不同的特征對生物進行分類。在經濟研究中,為了研究不同地區城鎮居民生活中的收入和消費情況,往往需要劃分不同的類型去研究。在地質學中,為了研究礦物勘探,需要根據各種礦石的化學和物理性質和所含化學成分把它們歸于不同的礦石類。在人口學研究中,需要構造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規律。但歷史上這些分類方法多半是人們主要依靠經驗作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內在的本質差別與聯系;特別是對于多因素、多指標的分類問題,定性分類的準確性不好把握。為了克服定性分類存在的不足,人們把數學方法引入分類中,形成了數值分類學。后來隨著多元統計分析的發展,從數值分類學中逐漸分離出了聚類分析方法。隨著計算機技術的不斷發展,利用數學方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應用得到了迅速的發展。聚類分析就是分析如何對樣品(或變量)進行量化分類的問題。通常聚類分析分為Q型聚類和R型聚類。Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。第二節相似性的量度
一樣品相似性的度量
二變量相似性的度量
一、樣品相似性的度量在聚類之前,要首先分析樣品間的相似性。Q型聚類分析,常用距離來測度樣品之間的相似程度。每個樣品有p個指標(變量)從不同方面描述其性質,形成一個p維的向量。如果把n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離公式來度量。兩點距離公式可以從不同角度進行定義,令dij
表示樣品Xi與Xj的距離,存在以下的距離公式:
1.明考夫斯基距離
(5.1)
明考夫斯基距離簡稱明氏距離,按的取值不同又可分成:歐氏距離是常用的距離,大家都比較熟悉,但是前面已經提到,在解決多元數據的分析問題時,歐氏距離就顯示出了它的不足之處。一是它沒有考慮到總體的變異對“距離”遠近的影響,顯然一個變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對多元數據的處理是不利的。為了克服這方面的不足,可用“馬氏距離”的概念。
2.馬氏距離設Xi與Xj是來自均值向量為,協方差為∑
=(>0)的總體
G中的p維樣品,則兩個樣品間的馬氏距離為
(5.5)
馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了觀測變量之間的相關性。如果各變量之間相互獨立,即觀測變量的協方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標的標準差的倒數作為權數的加權歐氏距離。馬氏距離還考慮了觀測變量之間的變異性,不再受各指標量綱的影響。將原始數據作線性變換后,馬氏距離不變。
3.蘭氏距離
(5.6)
它僅適用于一切Xij>0的情況,這個距離也可以克服各個指標之間量綱的影響。這是一個自身標準化的量,由于它對大的奇異值不敏感,它特別適合于高度偏倚的數據。雖然這個距離有助于克服明氏距離的第一個缺點,但它也沒有考慮指標之間的相關性。
4.距離選擇的原則一般說來,同一批數據采用不同的距離公式,會得到不同的分類結果。產生不同結果的原因,主要是由于不同的距離公式的側重點和實際意義都有不同。因此我們在進行聚類分析時,應注意距離公式的選擇。通常選擇距離公式應注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實際應用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數據的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且帶有一定主觀性的問題,我們應根據研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結果進行對比分析,以確定最合適的距離測度方法。二、變量相似性的度量多元數據中的變量表現為向量形式,在幾何上可用多維空間中的一個有向線段表示。在對多元數據進行分析時,相對于數據的大小,我們更多地對變量的變化趨勢或方向感興趣。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關性”進行考察,從而得到“夾角余弦法”和“相關系數”兩種度量方法。
1、夾角余弦 兩變量Xi與Xj看作p維空間的兩個向量,這兩個向量間的夾角余弦可用下式進行計算
(5.7)
顯然,∣cos
ij∣1。
2.相關系數 相關系數經常用來度量變量間的相似性。變量Xi與Xj的相關系數定義為
(5.8)
顯然也有,∣rij∣1。無論是夾角余弦還是相關系數,它們的絕對值都小于1,作為變量近似性的度量工具,我們把它們統記為cij。當∣cij∣
=1時,說明變量Xi與Xj完全相似;當∣cij∣近似于1時,說 明變量Xi與Xj非常密切;當∣cij∣=0時,說明變量Xi與Xj完 全不一樣;當∣cij∣近似于0時,說明變量Xi與Xj差別很大。 據此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內。在實際聚類過程中,為了計算方便,我們把變量間相似性的度量公式作一個變換為
dij
=1∣cij∣(5.9)
或者
dij2
=1cij2(5.10)
用表示變量間的距離遠近,小則與先聚成一類,這比較符合人們的一般思維習慣。第三節系統聚類分析法
一系統聚類的基本思想
二類間距離與系統聚類法
三類間距離的統一性
一、系統聚類的基本思想系統聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。系統聚類過程是:假設總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n
1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成n
2類;……,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。為了直觀地反映以上的系統聚類過程,可以把整個分類系統畫成一張譜系圖。所以有時系統聚類也稱為譜系分析。除系統聚類法外,還有有序聚類法、動態聚類法、圖論聚類法、模糊聚類法等,限于篇幅,我們只介紹系統聚類方法。二、類間距離與系統聚類法在進行系統聚類之前,我們首先要定義類與類之間的距離,由類間距離定義的不同產生了不同的系統聚類法。常用的類間距離定義有8種之多,與之相應的系統聚類法也有8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。以下用dij表示樣品Xi與Xj之間距離,用Dij表示類Gi與Gj
之間的距離。
1.最短距離法 定義類與之間的距離為兩類最近樣品的距離,即為
(5.11)
設類與合并成一個新類記為,則任一類與的距離為
(5.12)最短距離法進行聚類分析的步驟如下: (1)定義樣品之間距離,計算樣品的兩兩距離,得一距離陣記為D(0)
,開始每個樣品自成一類,顯然這時Dij
=
dij。 (2)找出距離最小元素,設為Dpq,則將Gp和Gq合并成一個 新類,記為Gr,即Gr
=
{Gp,Gq}。 (3)按(5.12)計算新類與其它類的距離。(4)重復(2)、(3)兩步,直到所有元素。并成一類為止。如果某一步距離最小的元素不止一個,則對應這些最小元素的類可以同時合并。【例5.1】設有六個樣品,每個只測量一個指標,分別是1,2,5,7,9,10,試用最短距離法將它們分類。 (1)樣品采用絕對值距離,計算樣品間的距離陣D(0),見表5.1表5.1 (2)D(0)中最小的元素是D12=D56=1,于是將G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式計算新類與其 它類的距離D(1),見表5.2表5.2 (3)在D(1)中最小值是D34=D48=2,由于G4與G3合并, 又與G8合并,因此G3、G4、G8合并成一個新類G9,其與其 它類的距離D(2),見表5.3表5.3 (4)最后將G7和G9合并成G10,這時所有的六個樣品聚為一類,其過程終止。 上述聚類的可視化過程見圖5.1所示,橫坐標的刻度表示并類的距離。這里我們應該注意,聚類的個數要以實際情況所定,其詳細內容將在后面討論。圖5.1最短距離聚類法的過程再找距離最小兩類并類,直至所有的樣品全歸為一類為止。可以看出最長距離法與最短距離法只有兩點不同:一是類與類之間的距離定義不同;另一是計算新類與其它類的距離所用的公式不同。
3.中間距離法 最短、最長距離定義表示都是極端情況,我們定義類間距離可以既不采用兩類之間最近的距離也不采用兩類之間最遠的距離,而是采用介于兩者之間的距離,稱為中間距離法。 中間距離將類Gp與Gq類合并為類Gr,則任意的類Gk和Gr的距離公式為
(1/40)(5.15)
設Dkq>Dkp,如果采用最短距離法,則Dkr
=
Dkp,如果采用 最長距離法,則Dkr
=
Dkq。如圖5.2所示,(5.15)式就是取它們(最長距離與最短距離)的中間一點作為計算Dkr的根據。特別當
=
1/4,它表示取中間點算距離,公式為
(5.16)
圖5.2中間距離法
【例5.2】針對例5.1的數據,試用重心法將它們聚類。(1)樣品采用歐氏距離,計算樣品間的平方距離陣D2(0),見表5.4所示。表5.4 (2)D2(0)中最小的元素是D212=D256=1,于是將G1和G2合 并成G7,G5和G6合并成G8,并利用(5.18)式計算新類與 其它類的距離得到距離陣D2(1),見表5.5: 其中, 其它結果類似可以求得 (3)在D2(1)中最小值是D234=4,那么G3與G4合并一個新類G9,其與與其它類的距離D2(2),見表5.6:表5.6 (4)在中最小值是=12.5,那么與合并一個新類,其與與 其它類的距離,見表5.7:表5.7(5)最后將G7和G10合并成G11,這時所有的六個樣品聚為一類,其過程終止。 上述重心法聚類的可視化過程見圖5.3所示,橫坐標的刻度表示并類的距離。圖5.3重心聚類法的過程
6.可變類平均法 由于類平均法中沒有反映出Gp和Gq之間的距離Dpq的影響, 因此將類平均法進一步推廣,如果將Gp和Gq合并為新類Gr,類Gk與新并類Gr的距離公式為: (5.22) 其中是可變的且<1,稱這種系統聚類法為可變類平均法。
8.離差平方和法 該方法是Ward提出來的,所以又稱為Ward法。該方法的基本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應當較小,類與類的離差平方和較大。具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。 設將n個樣品分成k類G1,G2,…,Gk,用Xit表示Gt中的第I
個樣品,nt表示Gt中樣品的個數,是Gt的重心,則Gt的樣品離差平方和為
這種系統聚類法稱為離差平方和法或Ward方法。下面論證離差平方和法的距離遞推(5.26)式。由于
三、類間距離的統一性上述八種系統聚類法的步驟完全一樣,只是距離的遞推公式不同。蘭斯(Lance)和威廉姆斯(Williams)于1967年給出了一個統一的公式。
(5.28)
其中ap、aq、、
是參數,不同的系統聚類法,它們取不 同的數,詳見表5.8。這里應該注意,不同的聚類方法結果不一定完全相同,一般只是大致相似。如果有很大的差異,則應該仔細考查,找到問題所在;另外,可將聚類結果與實際問題對照,看哪一個結果更符合經驗。表5.8系統聚類法參數表第四節K均值聚類分析系統聚類法需要計算出不同樣品或變量的距離,還要在聚類的每一步都要計算“類間距離”,相應的計算量自然比較大;特別是當樣本的容量很大時,需要占據非常大的計算機內存空間,這給應用帶來一定的困難。而K—均值法是一種快速聚類法,采用該方法得到的結果比較簡單易懂,對計算機的性能要求不高,因此應用也比較廣泛。K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟:
1.將所有的樣品分成K個初始類;
2.通過歐氏距離將某個樣品劃入離中心最近的類中,并對獲得樣品與失去樣品的類,重新計算中心坐標;
3.重復步驟2,直到所有的樣品都不能再分配時為止。K均值法和系統聚類法一樣,都是以距離的遠近親疏為標準進行聚類的,但是兩者的不同之處也是明顯的:系統聚類對不同的類數產生一系列的聚類結果,而K—均值法只能產生指定類數的聚類結果。具體類數的確定,離不開實踐經驗的積累;有時也可以借助系統聚類法以一部分樣品為對象進行聚類,其結果作為K—均值法確定類數的參考。下面通過一個具體問題說明K均值法的計算過程。【例5.3】假定我們對A、B、C、D四個樣品分別測量兩個變量和得到結果見表5.9。 試將以上的樣品聚成兩類。表5.9樣品測量結果 第一步:按要求取K=2,為了實施均值法聚類,我們將這些樣品隨意分成兩類,比如(A、B)和(C、D),然后計算這兩個聚類的中心坐標,見表5.10所示。 表5.10中的中心坐標是通過原始數據計算得來的,比如(A、
B)類的,等等。表5.10中心坐標 第二步:計算某個樣品到各類中心的歐氏平方距離,然后將該樣品分配給最近的一類。對于樣品有變動的類,重新計算它們的中心坐標,為下一步聚類做準備。先計算A到兩個類的平方距離: 由于A到(A、B)的距離小于到(C、D)的距離,因此A不用重新分配。計算B到兩類的平方距離:由于B到(A、B)的距離大于到(C、D)的距離,因此B要分配給(C、D)類,得到新的聚類是(A)和(B、C、D)。更新中心坐標如表5.11所示。表5.11更新后的中心坐標第三步:再次檢查每個樣品,以決定是否需要重新分類。計算各樣品到各中心的距離平方,得結果見表5.12。到現在為止,每個樣品都已經分配給距離中心最近的類,因此聚類過程到此結束。最終得到K=2的聚類結果是A獨自成一類,B、C、D聚成一類。表5.12樣品聚類結果第五節有序樣品的聚類分析法
一有序樣品可能的分類數目
二費希爾最優求解法三一個典型例子以上的系統聚類和K—均值聚類中,樣品的地位是彼此獨立的,沒有考慮樣品的次序。但在實際應用中,有時樣品的次序是不能變動的,這就產生了有序樣品的聚類分析問題。例如對動植物按生長的年齡段進行分類,年齡的順序是不能改變的,否則就沒有實際意義了;又例如在地質勘探中,需要通過巖心了解地層結構,此時按深度順序取樣,樣品的次序也不能打亂。如果用X(1),
X(2),
…,X(n)表示n個有序的樣品,則每一類必須是這樣的形式,即X(i),X(i+1),…,X(j),其中1rn,且jn,簡記為Gi
=
{i,i+1,…,j}。在同一類中的樣品是次序相鄰的。這類問題稱為有序樣品的聚類分析。一、有序樣品可能的分類數目n個有序樣品分成k類,則一切可能的分法有種。實際上,n個有序樣品共有(n
1)個間隔,分成k類相當于在這(n
1)個間隔中插入k
1根“棍子”。由于不考慮棍子的插入順序,是一個組合問題,共有種插法。 圖5.4有序樣品的分類法這就是n個有序樣品分成k類的一切可能分法。因此,對于有限的n和k,有序樣品的所有可能分類結果是有限的,可以在某種損失函數意義下,求得最優解。所以有序樣品聚類分析又稱為最優分割,該算法是費希爾(Fisher)最先提出來的,故也稱之為費希爾最優求解法。二、費希爾最優求解法
這里需要注意,若要尋找將n個樣品分為k類的最優分割,則對于任意的j(k
j
n),先將前面j
1個樣品最優分割為k1類,得到p(j1,k1),否則從j到n這最后一類就不可能構成k類的最優分割,參見圖5.6。再考慮使L[b(n,k)]最小的j*,得到p(n,k)。因此我們得到費希爾最優求解法的遞推公式為(5.23)圖5.6最優分割
三、一個典型例子【例5.4】為了了解兒童的生長發育規律,今隨機抽樣統計了男孩從出生到11歲每年平均增長的重量數據表5.13,試問男孩發育可分為幾個階段?在分析這是一個有序樣品的聚類問題時,我們通過圖形可以看到男孩增重隨年齡順序變化的規律,從圖5.6中發現男孩發育確實可以分為幾個階段。表5.131-11歲兒童每年平均增長的重量圖5.7兒童成長階段分析下面通過有序樣品的聚類分析確定男孩發育分成幾個階段較合適。步驟如下:表5.14直徑D(i,j)
(3)分類個數的確定。如果能從生理角度事先確定k當然最好;有時不能事先確定k時,可以從L[p(l,k)]隨k的變化趨勢圖中找到拐點處,作為確定k的根據。當曲線拐點很平緩時,可選擇的k很多,這時需要用其它的辦法來確定,比如均方比和特征根法,限于篇幅此略,有興趣的讀者可以查看其它資料。本例從表5.15中的最后一行可以看出k
=3,4處有拐點,即分成3類或4類都是較合適的,從圖5.8中可以更明顯看出這一點。第六節實例分析與計算機實現一在SPSS中利用系統聚類法進行聚類分析
二在SPSS中利用K均值法進行聚類分析
一、在SPSS中利用系統聚類法進行
聚類分析設有20個土壤樣品分別對5個變量的觀測數據如表5.16所示,試利用系統聚類法對其進行樣品聚類分析。表5.16土壤樣本的觀測數據 (一)操作步驟
1.在SPSS窗口中選擇Analyze→Classify→HierachicalCluster,調出系統聚類分析主界面,并將變量X1~X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進行聚類(若選擇Variables,則對變量進行聚類)。在Display欄中選擇Statistics和Plots復選框,這樣在結果輸出窗口中可以同時得到聚類結果統計量和統計圖。圖5.15K均值聚類分析主界面
2.點擊Iterate按鈕,對迭代參數進行設置。MaximumIterations參數框用于設定K-means算法迭代的最大次數,ConvergenceCriterion參數框用于設定算法的收斂判據,其值應該介于0和1之間。例如判據設置為0.02,則當一次完整的迭代不能使任何一個類中心距離的變動與原始類中心距離的比小于2時,迭代停止。設置完這兩個參數之后,只要在迭代的過程中先滿足了其中的參數,則迭代過程就停止。這里我們選擇系統默認的標準。單擊Continue,返回主界面。圖5.16Iterate子對話框
3.點擊Save按鈕,設置保存在數據文件中的表明聚類結果的新變量。其中Clustermembership選項用于建立一個代表聚類結果的變量,默認變量名為qcl_1;D
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CI 412-2024隧道與地下空間支護結構滲漏智能檢測技術規程
- T/CCS 078-2023采煤工作面破碎頂板注漿加固技術要求
- T/CNFIA 225.2-2024食品中致敏原成分檢測方法第2部分:乳免疫分析法
- T/CEPPEA 5047-2024生活垃圾焚燒發電廠有毒及可燃氣體探測與自動報警系統設計規范
- T/CSIA 017-2024塔式起重機再制造技術規程
- 場地租賃合同標準范文4篇
- 2025年離婚協議書怎么寫3篇
- 室內設計肌理構成
- 債權債務轉移協議書2篇
- 食品工廠經營承包協議(標準版)4篇
- 物業管理部組織架構與職責劃分
- (2025春新版本)部編版七年級語文下冊全冊教案
- 高級病理學與病理學實驗技術知到智慧樹章節測試課后答案2024年秋浙江中醫藥大學
- 設備維護中的難題和重點:分析與應對計劃
- 貨運物流提前報備通知函
- 2025年度山西建設投資集團限公司高校畢業生招聘885人高頻重點提升(共500題)附帶答案詳解
- 2021-2022年北京市大興區六年級下冊期末數學試卷及答案(人教版)
- 高考高中物理知識點考點框架圖導圖
- 胃食管反流病指南
- 《假如我是患者》課件
- 第三單元+法律與教化+復習背誦清單 高二上學期歷史統編版(2019)選擇性必修1國家制度與社會治理
評論
0/150
提交評論