數據處理與統計軟件-聚類分析及matlab實現_第1頁
數據處理與統計軟件-聚類分析及matlab實現_第2頁
數據處理與統計軟件-聚類分析及matlab實現_第3頁
數據處理與統計軟件-聚類分析及matlab實現_第4頁
數據處理與統計軟件-聚類分析及matlab實現_第5頁
免費預覽已結束,剩余57頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

聚類分析( 實§1樣品(變量)相近性度§2譜系聚類法 實§3快速聚類(k均值聚類)統計方法,是依據研究對象的的特征進行分類聚類分析把分類對象按一定規則分成若干個類,這些類非事先給定的,而是根據數據特征確定的。在同一類中這些對象在某種意義上趨向于彼此相似,而在不同類中趨向于不相似。其職能是建立一種能按照樣品或變量的相似程度進行分類的方法。§1樣品(變量)間在生產實際中經常遇到給產品等級進行分類的問題,如一等品、二等品等,在生物學中,要根據生物的特征進行分類;在考古時要對古生物化石進行科學分類;在球類比賽中經常要對各球隊進行分組如何確定隊,這些問題就是聚類分析問題。隨著科學技術的發展,我們利用已知數據首先提取數據特征,然后借助計算機依據這些特征進行分類,聚類的依據在于各類別之間的接近程度如何計量,通常采取距離與相似系數進行衡量。設有n個樣品的p元觀測數據組成一個數據矩X n 其中每一行表示一個樣品,每一列表示一個指標,xij表示第i個樣品關于第j項指標的觀測值,聚類分析的基本思想就是在樣品之間定義距離,在指標之間定義相似系數,樣品之間距離表明樣品之間的相似度,指標之間的相似系數刻畫指標之間的相似度。將樣品(或變量)按相似度的大小逐一歸類,關系密切的到同一類,關系疏遠的到不同的類,聚類分析通常有:實現設有n個樣品的p元觀測數據

(xi1,

,,

)T,

1,2,,這時,每個樣品可看成p元空間的一個點,每兩個點之間的離記

d(xi,xj

滿足條件d(xi,xj

0且d(xixj

xd(xi,xj

d(xj

xid(xi,xj)

d(xi,xk)

d(xk

,xj歐氏距

d(x,

)[(x

p k1p

絕對距

d(xi,xj

pkpp

x

明氏距

d(x,x)[|

k距

d(xi,xj

1k

xik

xjkp

方 距

d(x,

)[(x

/s2]1/ k1將原數據標準化以后的歐氏距馬氏距離d(x,x) (xx)T1(xx 蘭氏距

d(xi,xj)

ppkp

xikxik

xjkxjk距離(Jffreys&d(xi

,xj

[(pkp

x

)2]1/例1為了研究遼寧、浙江、 、 、青海5省1991年城鎮居民生活消費規律,需要利用 資料對五個省進行分類指標變量共8個,意義如下:X1人均糧食支出,X2人均副食支出X3人均煙酒茶支出,X4人均其他副食支出,X5人均衣著商品支出,X6人均日用品支出,X7:人均 支出,X8人均非商品支出。表 1991年五省城鎮居民生 消費(元/人遼浙青試計 之間的歐氏、絕對、明氏距離計 之間的歐氏、絕對、明氏距解d1=pdist(a)此時計算出各行之間的歐氏距離,Dsquareform(d1),%注意此時d1必須是一個行向量,結果若想得到三角陣,則有命令S=S 0000000000d2=pdist(a,'cityblock');S2=S2000000000000000d3=pdist(a,'minkowski',3);S3=例2.13個國家1990,1995,2000可持續發展能力如序國1澳大利2巴34中5法6德78意大9俄羅南英采用不同的距離,得到結果如下類歐氏距離(最短距離12澳大利亞、、英、德、意、、3巴西、、南4類歐氏距離(ward距離1澳大利亞、中、意、2、英、德、法3巴西、、南4類馬氏距離(ward距離12澳大利亞、、英、德、意、南非、俄、3巴西、、4變量間的相似度量——相似系當對p個指標變量進行聚類時,用相 |

1,當且僅當

k,k 相似系數中最常用的是相關系數與夾角余弦夾角余兩變量的夾角余弦定相關系兩變量的相關系數定例3.計算例1中各指標之間的相關系數與夾角余解2.04R=corrcoef(a);%指標之間的相關系數a1=normc(a);%將a的各列化為單位向量 %計算a中各列之間的夾角余弦J§2系統聚類分系統聚類法(譜系聚類法)用最為廣泛的法,它的基本原理是:首先將n個樣品或指標各自看成一類,然后根據樣品(或指標)的親疏程度,將親近程度最高的兩類進行合并。然后考慮合并后的類與其他類之間的親疏程度,再進行合并。重復這一過程,直至將所有的樣品(或指標)合并為一類。§2§2系統聚類分計算n構成n1,轉5,否則轉§2系統聚類分系統聚類分析用到 函 計算Cophenetic根據linkageR⒈不但可以了解個別變量之間的親疏程度,而且可以了解各個變量組合之間的親疏程度。⒉根據變量的分類結果以及它們之間的關系,可以選擇主要變量進行Q型聚類分析或回歸分析。R2為選擇標準)Q⒈可以綜合利用多個變量的信息對樣本進行分析⒉分類結果直觀,聚類譜系圖清楚地表現數值分類結果⒊聚類分析所得到的結果比傳統分類方法更細致、全面、合理。我們主要討論Q型聚類分析,Q型聚類常用的統計量是距離2聚類方2聚類方前面,我們介紹了兩個向量之間的距離,下面我們介紹兩個類別之間的距離:設dj表示兩個樣品x,xj之間的距離,p,q分別表示兩個類別,各自含有n,nq個樣品.最短距

即用兩類中樣品之間的距離最短者作為兩類間距最長距

iGp,jGq即用兩類中樣品之間的距離最長者作為兩類間距最短距離(Nearest 最長最長距離(FurthestNeighbor? ?????x2,y2???????di/99 最短距AF最長距 D中間距中間距類平均距

dnnpqnn

ijiGp距離重心距

d(xp,xq)(x px)((x px)(x xTqpq

分別是Gp,Gq的重心,這是用兩類的重之間的歐氏距離作為兩類間的離差平方和距離

np

(x

)T

xnpqnp

pq 顯然,離差平方和距離與重心距離的平方成正pq 類間距離的遞推公最短距

,Dqk最長距

,Dqk類平均距

Drk

np

nDpknr

Dqk重心距

npDnrkDnr

DnpkDnr

np DDnnqk pqDDnn 證明

D(x D(x

)T(x

xr)

xT

2xT

xT

krrkkkr將xT krrkkkr

xT

xT

nnrn nnrn

代入 npnT

2

將上式中加上再減

npxTx

xT

,合并同類項ppD2np(xTpp

2xT

xT

qqn)nq(xT 2xT Txqqnnnr

nnrnn1[n2xT

nxT

2xT

]np

xT

xTn n

上式第二行合并同類D npDnrknr

DnpkDnr

np DDnnqk pqDDnn D npDnrknr

DnpkDnr

2DnqkDnr

DpqDpq譜系聚類的步驟如下選擇樣本間計算n個樣本兩兩之間的距離,得到距離矩Dd構造n合并符合類間距離定義要求的兩類為一個新類計算新類與當前各類的距離。若類的個數為1,則轉到步驟6,否則回到步驟4;畫出聚類圖系統聚類法的聚類原則決定于樣品間的距離以及類間距離的定義,類間距離的不同定義就產生了不同的系統聚類分析方法。以下用dj表示樣品(i)和(j)之間的距離,當樣品間的親疏關系采用相似系數j時, 21 以下用D(p,q)表示類Gp和Gq之間的距離n個樣品開始作為n個類,計算兩兩之間的距離或相似系數,得到實對稱矩陣d11

d

d1n 0 0

2ndd

d

dnn從0的非主對角線上找最小(距離)或最大元素(相似系數),設該元素是pq,則將Gp,Gq合并成一個新類=(Gp,Gq),在0中去掉Gp,Gq所在的兩行、兩列,并加上新類與其余各類之間的距離(或相似系數),得到n-1階矩陣1。在合并過程中要記下合并樣品的及兩類合例4.從例1算得的樣品間的歐氏距離矩陣出發,用下(1)最短距離,(2)最長距解:我們用1,2,3,4,5分別表示遼寧、浙江、河南、 和青海,將距離矩陣記為00

看成一類,即Gi={i}i=1,…,5,G1,G2,G5之間的最短距離,得

min{d31,d41}min{d32,d42}min{d35,d45}

將計算結果作為第一列,從D0中去掉第3、4行與34列,剩余元素作為其余各列得到0 0D1

13.12 24.06 11.67

12.80

23.54

0從1可以看出6與5的距離最小,因此在2.21的水平上將6與5合成一類7,即G7={,4,5計算7與1,2之間的最短距離,得

min{D61,D51}

min{D62,D52}

將計算結果作為第一列,從1中劃掉3,4與所在的行與列,剩余元素作為其他列得 3,4,}

0

0

0從2可以看出G1,G2最接近,在1.67的水平上合并成一類8,至此只剩下G7,G8兩類,他們之間的距離為:12.8,故在此水平上將合成一類,包含了全部的五個省份。最后,我們作出譜系圖1最短距離聚類圖 遼寧浙江34青海將每一個省區視為一個樣品,先計算5個省區之間的歐式距離,用0表示距離矩陣(對稱陣,故給出下三角陣 10 10

D0

25

因此將3.4合并為一類,為類6,替代了3、4兩 G6

G2

0

0合并類6和類5,得到新類得到新矩

G2 D2

0 0合并類1和類2,得到新類d(7,8)

0最后合并為一個大類。這就是按最短距離定義類間距離的系統聚類方法。最長距離法類似!于是得到如下譜系聚類圖譜系聚類 實現輸入數據矩陣,注意行與列的實際意義計算各樣品之間的距離(行間距離 %注意計算A中各行之間的絕對距離:d %r要填上具方 距離:d=馬氏距離:d注意:以上命令輸出的結果是一個行向量,如果要得到距離矩陣,可以用命令:D=若得到三角陣,可以D=(3)選擇不同的類間距離進行聚最短距離:z1= %此處及以下的d都最長距離:z2=linkage(d,'complete')中間距離:z3=linkage(d,'centroid')重心距離:z4=linkage(d,'average')離差平方和:z5=linkage(d,'ward')注意:此時輸出的結果是一個n-1行3列的矩陣,每一行表示在某水平上合并為一類的序號;(4) 注意若樣本少于30,可以(5)T=cluster(z,k)注意k是分類數目,z是(3)中的結Find(T==k0)找出屬于第k0例5.將例1利 軟件進行聚解歐氏距離:d1=pdist(b);%b中每行之間%五種類間距離聚類其中z1輸出結z1%在2.2033的水平,G3,G4合成一類為%在2.2159的水平,G6,G5合成一類為%在11.6726的水平,G1,G2合成一類為%在12.7983的水平,G7,G8合成作譜系聚類圖:H=圖2.最短距離聚類輸出分類結

類 以上是樣品之間是歐氏距離,類間距離是最短距離聚類的結果,實際上,對樣品之間的每一種距離,可以由五種不同的類間距離進行聚類。那么哪一種最好呢?為此我們可以計算復合相關系數,若該系數越接近于1則該聚類越理想。在 中計算復合相關系數 令如下:其中,z是用某種類間距離linkage后的結果d是樣品之間的結果為 由于0.8623最大,故認為若樣品之間采用歐氏距離,則類間距離以中間距離最好,如果我們要找到最理想的分類方法,可以對每一種樣品之間的距離,都計算上述的復合相關系數,這就可以找到最理想的樣品距離與對應的類間距離。a=[28,18,11,21,26,20,16,14,24,29,23, 23,29,23,22,23,29,28,18, 22,26,22,22,24,24,對a的各列進行聚類,如何計算復合相關ford1=linkage(d(i,:));r1(i)=cophenet(d1,d(i,:));fori=1:5ford3=linkage(d(i,:),'average');r3(i)=cophenet(d3,d(i,:));fori=1:5fori=1:5§3§3快速聚類法(動態聚類,K均值聚類快速聚類法又稱為動態聚類法或K均值聚類法,該方法首先將樣品進行粗糙分類,然后依據樣品間的距離按一定規則進行調整,直至不能調整為止.該方法適用于樣品數量較大的數據集的聚類分析,但是需要事先給定聚類數目,此數目對最終聚類結果有很大影響,實際應用時要選擇多個數目進行分類,然后找出合理的分類結果。快速聚類的步選擇聚聚點是一批有代表性的樣品,他的選擇決定了初始分類,并對最終分類有很大影響,選擇聚點之前要先確定聚類數。通常,有以下確定聚點的方法①經驗確定:對樣品非常熟悉,根據經驗確定k個樣品作為聚點.(比如確定 ②將n個樣品隨機地分為k類,然后以每一類的均值向量作③最小最大原則:若n個樣品分為k類,先選擇所有樣品中距離最大的兩個樣品x1,x2為兩個初始聚點,即12),然后選擇第3個聚點,使得該點到上述兩點距離最小是所有其它點到上述兩點距離最小中最大者,即min{d(3,xr),r=1,2}=max{min[d(xj,xr),r=1,2]}比較遠的點為第四個聚點,……,直至選出k個聚點。④按照同樣的原則選取xi4,依

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論