第9章 聚類分析_第1頁
第9章 聚類分析_第2頁
第9章 聚類分析_第3頁
第9章 聚類分析_第4頁
第9章 聚類分析_第5頁
已閱讀5頁,還剩20頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第九章聚類分析一、聚類分析含義將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程稱為聚類,由聚類所組成的簇是一組對象的集合,這些對象與同一簇中的對象彼此相似,與其它簇中的對象相異。與分類不同,它要劃分的類是未知的。二、聚類分析中的數據類型及轉換1、數據矩陣:用p個變量(也稱為度量或屬性)來表現n個對象,例如用年齡、身高、性別等屬性來表現對象“人”。構成一個n*p的矩陣。2、相異度矩陣:存儲n個對象兩兩之間的近似程度性,表現形式是一個n*n的矩陣。這里d(i,j)是對象i和對象j之間相異性的量化表示3、區間標度度量一個粗略線性標度的連續度量。(如重量,溫度等)

實現度量值的標準化:將原來的度量值轉換為無單位的值。為什么這么做?

選用的度量單位會直接影響聚類結果。例如千克改位克。一般,所用的單位越小,變量的值域就越大,對聚類的影響也越大。為了避免數據對度量單位的依賴,數據應當標準化。給定變量f,變換方法:(1)計算平均的絕對偏差Sf(2)計算標準化度量值,或z-score:注意:在特定的應用中,是否要數據標準化和如何標準化是用戶自己的事情4、已標準化數據后怎么計算兩個對象的相似度三種常用的距離計算公式

(1)歐幾里德距離(2)曼哈坦距離(2)明斯基距離5、其它類型變量的相異度計算(1)二元變量變量的取值只有兩個狀態,如性別,表示是否吸煙,醫療檢查正常還是不正常等。

i和j是兩個變量:q是兩個變量中都為1的個數

l是兩個變量中都為0的個數

s是i變量中為0,j中為1的個數

r是i變量中為1,j中為0的個數

p=q+r+s+t二元變量權重相同(對稱的,如性別)即:分子為兩者相異的總數,分母為二元變量總數二元變量權重不同(非對稱的)例如,一個疾病化驗結果正常和不正常,對一個群體,正常者總是大多數,我們用1表現幾率小的情況,0表示另一種情況。評價系數,Jaccard系數

即:兩個相異的數量作為分子,相異的數量加兩個為1的數量作為分母。(同對稱二元變量相比,兩個同為0的數量不出現在分母中)例:假定一個病人記錄表如下:姓名發燒咳嗽檢查1檢查2檢查3檢查4張明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正常….….….….….....…..例:假定一個病人記錄表如下:姓名發燒咳嗽檢查1檢查2檢查3檢查4張明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正常….….….….….....…..例:假定一個病人記錄表如下:姓名發燒咳嗽檢查1檢查2檢查3檢查4張明是否不正常正常正常正常王枚是否不正常正常不正常正常李力是是正常正常正常正常….….….….….....…..從左邊的計算知道:(1)李力和王枚不大可能有相同疾病,因為相異很高;(2)張明和王枚最可能得相同的疾病(2)枚舉變量

可以有若干個不同取值,比如反映產品顏色的color可以是{紅、黃、綠、蘭、粉紅}

假設一個枚舉變量的狀態數目是M。這些狀態可以映射到字母、符號或一組整數(1,2,…,M)。p是全部變量的數目m是匹配的數目。(3)序數型變量是枚舉但有序,比如{金牌、銀牌、銅牌}

區間標度度量值劃成了區間,比如年齡分成了年齡段{10

歲以下,11..20,21..30,..}等。一個序數型變量的值可以映射為秩。例如一個變量f可以有Mf個狀態,可以映射到一個有序排列{1,2,…,Mf}。如何處理序數型變量?假設f是用于描述n個對象的一組序數型變量之一,關于f的相異度計算包括如下步驟:

1)第i個對象的f值為xif,變量f有Mf個有序的狀態,對應于序列1,…,Mf。用對應的秩rif代替xif,rif{1,..,Mf}2)既然每個序數型變量可以有不同數目的狀態,經常必須將每個變量的值映射到[0.0,1.0]上,以便每個變量都有相同的權重。可以通過用zif代替rif來實現3)相異度的計算可以采用前面的任意一種距離度量方法(4)比例標度型非線性的取正的數據,如指數型數據。對數變換,對象i的f變量的值xif被變換成yif

,yif

=log(xif)將xif看成序數型數據6、混合類型的變量真實數據庫的元組的變量往往是混合的。處理方法為:(1)將變量按類型分組,對每種類型的變量進行單獨的聚類分析。如果這些分析得到的結果是兼容的,則該方法是可行的。實際應用中,這種情況比較少見。(2)將所有變量一起處理,只進行一次聚類。將不同類型的變量組合在單個相異度矩陣中,把所有有意義的變量轉換到共同的值域區間[0.0,1.0]上。假設數據集包含p個不同類型的變量,對象i和j之間的相異度d(i,j)定義為:

其中,如果xif或xjf缺,或者xif=xjf=0,且變量f是不對稱的二元變量,則指示項=0;否則等于1。變量f對i和j之間相異的計算方式與其具體類型相關:如果f是二元變量或枚舉變量:如果xif=xjf,,否則為1。如果f是區間標度變量:如果f是虛數型或者比例標度型變量:計算秩rif,在變換zif三、劃分方法劃分方法:將一個包含n個數據對象的數據庫組織成k個劃分(k<=n),其中每個劃分代表一個簇。給定一個k,要構造出k個簇,并滿足采用的劃分準則:k-平均

:由簇的中心來代表簇;k-中心點:

每個簇由簇中的某個數據對象來代表。K-平均算法:把n個對象分為k個簇,是簇內具有較高的相似度,而簇間的相似度較底。相似度的計算根據一個簇中對象的平均值(重心)來進行。

流程:首先,隨機的抽取k個對象,每個對象初始地代表一個簇的平均值。對剩余的每個對象,根據與各個簇中心的距離,將它賦給最近的簇。然后重新計算各個簇的平均值。過程不斷反復,直到準則函數收斂。一般采用平方誤差準則:這里,p是空間的點,表示給定的對象,mi是簇Ci的平均值。例子初始點初始點K-中心點:首先為每個簇隨意選擇一個代表;剩余的對象根據其與代表對象的距離分配給最近的一個簇。然后反復地用非代表對象代替代表對象,以改進聚類質量。質量用一個代價函數估算。該函數計算對象與參照對象之間的平均相異度。(比如:代替后的點的平方誤差函數-原來的平方誤差函數)描述:1)隨機選擇k個對象作為初始的中心點;2)repeat3)指派每個剩余的對象給離它最近的中心點所代表的簇;4)隨機地選擇一個非中心點對象Orandom;5)計算用Orandom代替Oj的總代價S;6)ifS<0thenOrandom代替Oj

,形成新的k個中心點的集合;7)until不發生變化;

判定一個非代表對象Orandom是否是一個代表對象Oj的更好替代,對每個非中心點對象p,考慮下面四種情況:1)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給OiOiOjpOrandom

判定一個非代表對象Orandom是否是一個代表對象Oj的更好替代,對每個非中心點對象p,考慮下面四種情況:1)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給Oi。2)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Orandom更近,p重新分配給Orandom

。OiOjpOrandom

判定一個非代表對象Orandom是否是一個代表對象Oj的更好替代,對每個非中心點對象p,考慮下面四種情況:1)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給Oi。2)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Orandom更近,p重新分配給Orandom

。3)p當前隸屬于中心點對象Oi。如果Oj被Orandom代替作為中心點后,而p仍然離Oi更近,那么對象的隸屬關系不變。OiOjpOrandom

判定一個非代表對象Orandom是否是一個代表對象Oj的更好替代,對每個非中心點對象p,考慮下面四種情況:1)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Oi更近,p重新分配給Oi。2)p當前隸屬于中心點對象Oj。如果用Orandom代替它后,p離Orandom更近,p重新分配給Orandom

。3)p當前隸屬于中心點對象Oi。如果Oj被Orandom代替作為中心點后,而p仍然離Oi更近,那么對象的隸屬關系不變。4)p當前隸屬于中心點對象Oi。如果Oj被Orandom代替作為中心點后,而p離Orandom更近,那么p重新分配給Orandom

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論