




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、聚類分析學(xué)習(xí)體會(huì)聚類分析是多元統(tǒng)計(jì)分析中研究“物以類聚”的一種方法,用于對(duì)事物的類別尚不清楚,甚至在事前連總共有幾類都不能確定的情況下進(jìn)行分類的場(chǎng)合。聚類分析主要目的是研究事物的分類,而不同于判別分析。在判別分析中必須事先知道各種判別的類型和數(shù)目,并且要有一批來(lái)自各判別類型的樣本,才能建立判別函數(shù)來(lái)對(duì)未知屬性的樣本進(jìn)行判別和歸類。若對(duì)一批樣品劃分的類型和分類的數(shù)目事先并不知道,這時(shí)對(duì)數(shù)據(jù)的分類就需借助聚類分析方法來(lái)解決。聚類分析把分類對(duì)象按一定規(guī)則分成組或類,這些組或類不是事先給定的而是根據(jù)數(shù)據(jù)特征而定的。在一個(gè)給定的類里的這些對(duì)象在某種意義上傾向于彼此相似,而在不同類里的這些對(duì)象傾向于不相似
2、。1聚類統(tǒng)計(jì)量在對(duì)樣品(變量)進(jìn)行分類時(shí),樣品(變量)之間的相似性是怎么度量?通常有三種相似性度量距離、匹配系數(shù)和相似系數(shù)。距離和匹配系數(shù)常用來(lái)度量樣品之間的相似性,相似系數(shù)常用來(lái)變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。通常變量按取值的不同可以分為:1.定量變量:變量用連續(xù)的量來(lái)表示,例如長(zhǎng)度、重量、速度、人口等,又稱為間隔尺度變量。2.定性變量:并不是數(shù)量上有變化,而只是性質(zhì)上有差異。定性變量還可以再分為:有序尺度變量:變量不是用明確的數(shù)量表示,而是用等級(jí)表示,例如文化程度分為文盲、小學(xué)、中學(xué)、大學(xué)等。名義尺度變量:變量用一些類
3、表示,這些類之間既無(wú)等級(jí)關(guān)系,也無(wú)數(shù)量關(guān)系,例如職業(yè)分為工人、教師、干部、農(nóng)民等。下面主要討論具有定量變量的樣品聚類分析,描述樣品間的親疏程度最常用的是距離。1.1距離1. 數(shù)據(jù)矩陣設(shè)為第個(gè)樣品的第個(gè)指標(biāo),數(shù)據(jù)矩陣如下表 表1 數(shù)據(jù)矩陣 變量樣品 12n 在上表中,每個(gè)樣品有個(gè)變量,故每個(gè)樣品都可以看成是中的一個(gè)點(diǎn),個(gè)樣品就是中的個(gè)點(diǎn)。在中需定義某種距離,第個(gè)樣品與第個(gè)樣品之間的距離記為,在聚類過(guò)程中,相距較近的點(diǎn)傾向于歸為一類,相距較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。所定義的距離一般應(yīng)滿足如下四個(gè)條件:,對(duì)一切;且當(dāng)且僅當(dāng) ,對(duì)一切;,對(duì)一切2定量變量的常用的距離對(duì)于定量變量,常用的距離有以下幾種:閔科
4、夫斯基(Minkowski)距離 這里為某一自然數(shù)。閔科夫斯基距離有以下三種特殊形式:1) 當(dāng)時(shí),稱為絕對(duì)值距離,常被形象地稱為“城市街區(qū)”距離;2) 當(dāng)時(shí),稱為歐氏距離,這是聚類分析中最常用的距離;3)當(dāng)時(shí),,稱為切比雪夫距離。在實(shí)際中用得很多,但是有一些缺點(diǎn),一方面距離的大小與各指標(biāo)的觀測(cè)單位有關(guān),另一方面它沒(méi)有考慮指標(biāo)間的相關(guān)性。當(dāng)各指標(biāo)的測(cè)量值相差懸殊時(shí),應(yīng)先對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離;最常用的標(biāo)準(zhǔn)化處理是:令 其中為第個(gè)變量的樣本均值,為第個(gè)變量的樣本方差。蘭氏(Lance和Williams)距離 當(dāng)( )時(shí),第個(gè)樣品與第個(gè)樣品間的蘭氏距離為 這個(gè)距離與各變量的單位無(wú)
5、關(guān),但沒(méi)有考慮指標(biāo)間的相關(guān)性。馬氏距離(Mahalanobis)距離第個(gè)樣品與第個(gè)樣品間的馬氏距離為 其中,為樣品協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性,并且與各變量的單位無(wú)關(guān);但馬氏距離有一個(gè)很大的缺陷,就是難確定。由于聚類是一個(gè)動(dòng)態(tài)過(guò)程,故隨聚類過(guò)程而變化,那么同樣的兩個(gè)樣品之間的距離可能也會(huì)隨之而變化,這不符和聚類的基本要求。因此,在實(shí)際聚類分析中,馬氏距離不是理想的距離。斜交空間距離 第個(gè)樣品與第個(gè)樣品間的斜交空間距離定義為其中是變量與變量間的相關(guān)系數(shù)。當(dāng)個(gè)變量互不相關(guān)時(shí),即斜交空間距離退化為歐氏距離(除相差一個(gè)常數(shù)倍外)。以上幾種距離的定義均要求樣品的變量是定量變
6、量,如果使用的是定性變量,則有相應(yīng)的定義距離的方法。3定性變量的距離下例只是對(duì)名義尺度變量的一種距離定義。 例1 某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到這樣6個(gè)變量:性別()取值為男和女;外語(yǔ)語(yǔ)種()取值為英、日和俄;專業(yè)()取值為統(tǒng)計(jì)、會(huì)計(jì)和金融;職業(yè)()取值為教師和非教師;居住處()取值為校內(nèi)和校外;學(xué)歷()取值為本科和本科以下。現(xiàn)有兩名學(xué)員: (男,英,統(tǒng)計(jì),非教師,校外,本科) (女,英,金融,教師,校外,本科以下)這兩名學(xué)員的第二個(gè)變量都取值“英”,稱為配合的,第一個(gè)變量一個(gè)取值為“男”,另一個(gè)取值為“女”,稱為不配合的。一般地,若記配合的變量數(shù)為,不配合的變量數(shù)為,則它們之間的距
7、離可定義為 按此定義本例中與之間的距離為。1.2匹配系數(shù) 當(dāng)樣品的變量為定性變量時(shí),通常采用匹配系數(shù)作為聚類統(tǒng)計(jì)量。第個(gè)樣品與第個(gè)樣品的匹配系數(shù)定義為 ,其中顯然匹配系數(shù)越大,說(shuō)明兩樣品越相似。1.3相似系數(shù)聚類分析方法不僅用來(lái)對(duì)樣品進(jìn)行分類,而且可用來(lái)對(duì)變量進(jìn)行分類。在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來(lái)度量變量之間的相似性。設(shè)表示與的相似系數(shù),它一般應(yīng)滿足如下三個(gè)條件:1 ,對(duì)一切;2 ,當(dāng)且僅當(dāng)存在常數(shù)和,使得;3 ,對(duì)一切.最常用的相似系數(shù)有以下兩種:1. 夾角余弦變量與的夾角余弦定義為 它是中變量的觀測(cè)向量與變量的觀測(cè)向量之間夾角的余弦函數(shù),即.2. 相關(guān)系數(shù)變量與的相關(guān)系數(shù)為其中,
8、2聚類分析從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析是通過(guò)數(shù)據(jù)建模簡(jiǎn)化數(shù)據(jù)的一種方法。傳統(tǒng)的統(tǒng)計(jì)聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動(dòng)態(tài)聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點(diǎn)等算法的聚類分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS等。 從機(jī)器學(xué)習(xí)的角度看,需要由聚類學(xué)習(xí)算法自動(dòng)確定標(biāo)記,而分類學(xué)習(xí)的實(shí)例或數(shù)據(jù)對(duì)象有類別標(biāo)記。聚類是觀察式學(xué)習(xí),而不是示例式的學(xué)習(xí)。 從實(shí)際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù),是模式識(shí)別的重要前提。而且聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類分析還
9、可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。2.1聚類分析的流程及數(shù)據(jù)來(lái)源聚類分析法的主要流程包括: 數(shù)據(jù)預(yù)處理、為衡量數(shù)據(jù)點(diǎn)間的相似度定義一個(gè)距離函數(shù)、聚類或分組和評(píng)估輸出, 用流程圖描述如圖1所示。圖 1 聚類分析流程圖 聚類分析的源數(shù)據(jù)通常是待聚類或分組的數(shù)據(jù)。對(duì)機(jī)械故障模式識(shí)別而言, 首先要獲取關(guān)于本機(jī)組的大量運(yùn)行參數(shù), 既要有機(jī)器平穩(wěn)運(yùn)行、正常工作時(shí)的數(shù)據(jù), 更要有機(jī)器出現(xiàn)故障時(shí)的數(shù)據(jù), 并且獲知故障的類別。這樣, 由已知故障類別、故障發(fā)生時(shí)的各運(yùn)行參數(shù)、歷史記錄組成的數(shù)據(jù)庫(kù)便構(gòu)成了數(shù)據(jù)挖掘的訓(xùn)練學(xué)習(xí)樣本庫(kù)。這里用到的數(shù)據(jù)就是設(shè)備的點(diǎn)檢數(shù)據(jù)。2.2 常用的聚類分析方法(1)
10、系統(tǒng)聚類法系統(tǒng)聚類法(Hierarchical clustering method)是目前使用最多的一種方法。其基本思想是首先將n個(gè)樣品看成n類(即一類包括一個(gè)樣品),然后規(guī)定樣品之間的距離和類與類之間的距離。將距離最近的兩類合并為一個(gè)新類,在計(jì)算新類和其他類之間的距離,再?gòu)闹姓页鲎罱膬深惡喜ⅲ^續(xù)下去,最后所有的樣品全在一類。將上述并類過(guò)程畫成聚類圖,便可以決定分多少類,每類各有什么樣品。系統(tǒng)聚類法的步驟為:首先各樣品自成一類,這樣對(duì)組樣品就相當(dāng)于有類;計(jì)算各類間的距離,將其中最近的兩類進(jìn)行合并;計(jì)算新類與其余各類的距離,再將距離最近的兩類合并;重復(fù)上述的步驟,直到所有的樣品都聚為一類時(shí)為
11、止。下面以最短距離法為例來(lái)說(shuō)明系統(tǒng)聚類法的過(guò)程。最短距離法的聚類步驟如下: 規(guī)定樣品之間的距離,計(jì)算樣品的兩兩距離,距離矩陣記為,開始視每個(gè)樣品分別為一類,這時(shí)顯然應(yīng)有; 選擇距離矩陣中的最小元素,不失一般性,記其為,則將與合并為一新類,記為,有; 計(jì)算新類與其他各類的距離,得到新的距離矩陣記為; 對(duì)重復(fù)開始進(jìn)行第步,直到所有樣本成為一類為止。值得注意的是在整個(gè)聚類的過(guò)程中,如果在某一步的距離矩陣中最小元素不止一個(gè)時(shí),則可以將其同時(shí)合并。(2) 動(dòng)態(tài)聚類法開始將n個(gè)樣品粗略地分成若干類,然后用某種最優(yōu)準(zhǔn)則進(jìn)行調(diào)整,一次又一次地調(diào)整,直至不能調(diào)整了為止。此法非常類似于計(jì)算方法的迭代法。(3) 分
12、解法它的程序正好和系統(tǒng)聚類相反,開始時(shí)所有的樣本都在一類,然后用某種最優(yōu)準(zhǔn)則將它分成兩類。再用同樣準(zhǔn)則將這兩類各自試圖分裂為兩類,從中選出一個(gè)使目標(biāo)函數(shù)較好者,這樣由兩類變成了三類。如此下去,一直分裂到每類只有一個(gè)樣品為止(或用其他停止規(guī)則)。(4) 加入法將樣品依次輸入,每次輸入后將它放到當(dāng)前聚類圖的應(yīng)有位置上,全部輸入后,即得聚類圖。3總結(jié)體會(huì)聚類分析指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。比如說(shuō)現(xiàn)在要把n個(gè)產(chǎn)品按產(chǎn)品的m個(gè)指標(biāo)繼續(xù)聚類,因?yàn)楫a(chǎn)品可能之前的特色是不一樣的。而這個(gè)時(shí)候影響產(chǎn)品的因素有m個(gè),不可能一個(gè)一個(gè)的考慮,那樣是分不出類來(lái)的。所以只能對(duì)產(chǎn)品的m
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 校園鳥類生態(tài)研究對(duì)中學(xué)生生物科學(xué)素養(yǎng)提升的影響論文
- 基于核心素養(yǎng)的初中數(shù)學(xué)高階思維培養(yǎng)路徑研究論文
- 藝考生形體管理制度
- 蘇泊爾現(xiàn)金管理制度
- 茶水間吃飯管理制度
- 財(cái)務(wù)管理課程實(shí)訓(xùn)
- 財(cái)務(wù)部組織機(jī)構(gòu)圖與崗位職責(zé)
- 財(cái)會(huì)經(jīng)濟(jì)-高級(jí)經(jīng)濟(jì)師-旅游經(jīng)濟(jì)-14-強(qiáng)化練習(xí)題-強(qiáng)化練習(xí)題七
- 內(nèi)蒙古巴彥淖爾市多校2025年初中學(xué)業(yè)水平考試模擬(二)數(shù)學(xué)試卷(含答案)
- 河南省平頂山市魯山縣五所學(xué)校2025屆九年級(jí)下學(xué)期中考三模地理試卷(含答案)
- 2025年四川省成都市中考語(yǔ)文真題(解析版)
- 北京市2024年高招本科普通批錄取投檔線
- 2025年黑龍江、吉林、遼寧、內(nèi)蒙古高考物理真題(解析版)
- 民航招飛初選試題及答案
- 學(xué)習(xí)解讀《水利水電建設(shè)工程驗(yàn)收規(guī)程》SLT223-2025課件
- 應(yīng)急第一響應(yīng)人理論考試試卷(含答案)
- 智障兒童的家庭教育(課堂PPT)
- 《電路分析基礎(chǔ)》試題及答案
- 生物多樣性影響評(píng)價(jià)規(guī)范
- 日本文學(xué)概論1
- 關(guān)口電能計(jì)量裝置管理辦法
評(píng)論
0/150
提交評(píng)論