聚類分析學習總結_第1頁
聚類分析學習總結_第2頁
聚類分析學習總結_第3頁
聚類分析學習總結_第4頁
聚類分析學習總結_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選文檔聚類分析學習體會聚類分析是多元統計分析中爭辯“物以類聚”的一種方法,用于對事物的類別尚不清楚,甚至在事前連總共有幾類都不能確定的狀況下進行分類的場合。聚類分析主要目的是爭辯事物的分類,而不同于判別分析。在判別分析中必需事先知道各種判別的類型和數目,并且要有一批來自各判別類型的樣本,才能建立判別函數來對未知屬性的樣本進行判別和歸類。若對一批樣品劃分的類型和分類的數目事先并不知道,這時對數據的分類就需借助聚類分析方法來解決。聚類分析把分類對象按肯定規章分成組或類,這些組或類不是事先給定的而是依據數據特征而定的。在一個給定的類里的這些對象在某種意義上傾向于彼此相像,而在不同類里的這些對象傾向

2、于不相像。1聚類統計量在對樣品(變量)進行分類時,樣品(變量)之間的相像性是怎么度量?通常有三種相像性度量距離、匹配系數和相像系數。距離和匹配系數常用來度量樣品之間的相像性,相像系數常用來變量之間的相像性。樣品之間的距離和相像系數有著各種不同的定義,而這些定義與變量的類型有著格外親密的關系。通常變量按取值的不同可以分為:1.定量變量:變量用連續的量來表示,例如長度、重量、速度、人口等,又稱為間隔尺度變量。2.定性變量:并不是數量上有變化,而只是性質上有差異。定性變量還可以再分為:有序尺度變量:變量不是用明確的數量表示,而是用等級表示,例如文化程度分為文盲、學校、中學、高校等。名義尺度變量:變量

3、用一些類表示,這些類之間既無等級關系,也很多量關系,例如職業分為工人、老師、干部、農夫等。下面主要爭辯具有定量變量的樣品聚類分析,描述樣品間的親疏程度最常用的是距離。1.1距離1. 數據矩陣設為第個樣品的第個指標,數據矩陣如下表 表1 數據矩陣 變量樣品 12n 在上表中,每個樣品有個變量,故每個樣品都可以看成是中的一個點,個樣品就是中的個點。在中需定義某種距離,第個樣品與第個樣品之間的距離記為,在聚類過程中,相距較近的點傾向于歸為一類,相距較遠的點應歸屬不同的類。所定義的距離一般應滿足如下四個條件:,對一切;且當且僅當 ,對一切;,對一切2定量變量的常用的距離對于定量變量,常用的距離有以下幾

4、種:閔科夫斯基(Minkowski)距離 這里為某一自然數。閔科夫斯基距離有以下三種特殊形式:1) 當時,稱為確定值距離,常被形象地稱為“城市街區”距離;2) 當時,稱為歐氏距離,這是聚類分析中最常用的距離;3)當時,,稱為切比雪夫距離。在實際中用得很多,但是有一些缺點,一方面距離的大小與各指標的觀測單位有關,另一方面它沒有考慮指標間的相關性。當各指標的測量值相差懸殊時,應先對數據標準化,然后用標準化后的數據計算距離;最常用的標準化處理是:令 其中為第個變量的樣本均值,為第個變量的樣本方差。蘭氏(Lance和Williams)距離 當( )時,第個樣品與第個樣品間的蘭氏距離為 這個距離與各變量

5、的單位無關,但沒有考慮指標間的相關性。馬氏距離(Mahalanobis)距離第個樣品與第個樣品間的馬氏距離為 其中,為樣品協方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關性,并且與各變量的單位無關;但馬氏距離有一個很大的缺陷,就是難確定。由于聚類是一個動態過程,故隨聚類過程而變化,那么同樣的兩個樣品之間的距離可能也會隨之而變化,這不符和聚類的基本要求。因此,在實際聚類分析中,馬氏距離不是抱負的距離。斜交空間距離 第個樣品與第個樣品間的斜交空間距離定義為其中是變量與變量間的相關系數。當個變量互不相關時,即斜交空間距離退化為歐氏距離(除相差一個常數倍外)。以上幾種距離的定義均要求樣品的變量

6、是定量變量,假如使用的是定性變量,則有相應的定義距離的方法。3定性變量的距離下例只是對名義尺度變量的一種距離定義。 例1 某高校舉辦一個培訓班,從學員的資料中得到這樣6個變量:性別()取值為男和女;外語語種()取值為英、日和俄;專業()取值為統計、會計和金融;職業()取值為老師和非老師;居住處()取值為校內和校外;學歷()取值為本科和本科以下。現有兩名學員: (男,英,統計,非老師,校外,本科) (女,英,金融,老師,校外,本科以下)這兩名學員的其次個變量都取值“英”,稱為協作的,第一個變量一個取值為“男”,另一個取值為“女”,稱為不協作的。一般地,若記協作的變量數為,不協作的變量數為,則它們

7、之間的距離可定義為 按此定義本例中與之間的距離為。1.2匹配系數 當樣品的變量為定性變量時,通常接受匹配系數作為聚類統計量。第個樣品與第個樣品的匹配系數定義為 ,其中明顯匹配系數越大,說明兩樣品越相像。1.3相像系數聚類分析方法不僅用來對樣品進行分類,而且可用來對變量進行分類。在對變量進行分類時,經常接受相像系數來度量變量之間的相像性。設表示與的相像系數,它一般應滿足如下三個條件:1 ,對一切;2 ,當且僅當存在常數和,使得;3 ,對一切.最常用的相像系數有以下兩種:1. 夾角余弦變量與的夾角余弦定義為 它是中變量的觀測向量與變量的觀測向量之間夾角的余弦函數,即.2. 相關系數變量與的相關系數

8、為其中,2聚類分析從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。接受k-均值、k-中心點等算法的聚類分析工具已被加入到很多有名的統計分析軟件包中,如SPSS、SAS等。 從機器學習的角度看,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀看式學習,而不是示例式的學習。 從實際應用的角度看,聚類分析是數據挖掘的主要任務,是模式識別的重要前提。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀看每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚

9、類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。2.1聚類分析的流程及數據來源聚類分析法的主要流程包括: 數據預處理、為衡量數據點間的相像度定義一個距離函數、聚類或分組和評估輸出, 用流程圖描述如圖1所示。圖 1 聚類分析流程圖 聚類分析的源數據通常是待聚類或分組的數據。對機械故障模式識別而言, 首先要獵取關于本機組的大量運行參數, 既要有機器平穩運行、正常工作時的數據, 更要有機器消滅故障時的數據, 并且獲知故障的類別。這樣, 由已知故障類別、故障發生時的各運行參數、歷史記錄組成的數據庫便構成了數據挖掘的訓練學習樣本庫。這里用到的數據就是設備的點檢數據。2.2 常用的聚類分析方

10、法(1)系統聚類法系統聚類法(Hierarchical clustering method)是目前使用最多的一種方法。其基本思想是首先將n個樣品看成n類(即一類包括一個樣品),然后規定樣品之間的距離和類與類之間的距離。將距離最近的兩類合并為一個新類,在計算新類和其他類之間的距離,再從中找出最近的兩類合并,連續下去,最終全部的樣品全在一類。將上述并類過程畫成聚類圖,便可以打算分多少類,每類各有什么樣品。系統聚類法的步驟為:首先各樣品自成一類,這樣對組樣品就相當于有類;計算各類間的距離,將其中最近的兩類進行合并;計算新類與其余各類的距離,再將距離最近的兩類合并;重復上述的步驟,直到全部的樣品都聚為

11、一類時為止。下面以最短距離法為例來說明系統聚類法的過程。最短距離法的聚類步驟如下: 規定樣品之間的距離,計算樣品的兩兩距離,距離矩陣記為,開頭視每個樣品分別為一類,這時明顯應有; 選擇距離矩陣中的最小元素,不失一般性,記其為,則將與合并為一新類,記為,有; 計算新類與其他各類的距離,得到新的距離矩陣記為; 對重復開頭進行第步,直到全部樣本成為一類為止。值得留意的是在整個聚類的過程中,假如在某一步的距離矩陣中最小元素不止一個時,則可以將其同時合并。(2) 動態聚類法開頭將n個樣品粗略地分成若干類,然后用某種最優準則進行調整,一次又一次地調整,直至不能調整了為止。此法格外類似于計算方法的迭代法。(

12、3) 分解法它的程序正好和系統聚類相反,開頭時全部的樣本都在一類,然后用某種最優準則將它分成兩類。再用同樣準則將這兩類各自試圖分裂為兩類,從中選出一個使目標函數較好者,這樣由兩類變成了三類。如此下去,始終分裂到每類只有一個樣品為止(或用其他停止規章)。(4) 加入法將樣品依次輸入,每次輸入后將它放到當前聚類圖的應有位置上,全部輸入后,即得聚類圖。3總結體會聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相像的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了進展,這些技術方法被用作描述數據,衡量不同數據源間的相像性,以及把數據源分類到不同的簇中。比如說現在要把n個產品按產品的m個指標連續聚類,由于產品可能之前的特色是不一樣的。而這個時候影響產品的因素有m個,不行能一個一個的考慮,那樣是分不出類來的。所以只能對產品的m個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論