




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、聚聚 類類 分分 析析 一、聚類分析(一、聚類分析(Cluster Analysis)簡介)簡介 聚類分析是直接比較各事物之間的性質,將性質聚類分析是直接比較各事物之間的性質,將性質相相近近的歸為一類,將性質的歸為一類,將性質差別較大差別較大的歸入不同的類的分析的歸入不同的類的分析技術。技術。基本思想基本思想 聚類分析的基本思想聚類分析的基本思想: : 所研究的所研究的樣品或指標樣品或指標( (變變量量) )之間存在著之間存在著程度不同的相似性程度不同的相似性( (或親疏關系或親疏關系) )。(1 1)根據一批樣本的多個指標)根據一批樣本的多個指標, , 具體找出一些能夠具體找出一些能夠度量度
2、量樣本或指標之間的樣本或指標之間的相似程度相似程度的的統計量統計量。(2 2)以這些統計量為分類的)以這些統計量為分類的依據依據, , 把一些相似程度把一些相似程度較大較大的樣本的樣本( (或指標或指標) )聚合為一類。聚合為一類。 基本思想基本思想 按相似程度的大小按相似程度的大小把關系把關系密切密切的樣本聚合到一個的樣本聚合到一個小小的分類單位的分類單位, , 關系關系疏遠疏遠的樣本聚合到一個的樣本聚合到一個大大的分類單位的分類單位, , 直到把所有的樣本直到把所有的樣本( (或指標或指標) )都聚合完畢。都聚合完畢。 把不同的類型一一劃分出來把不同的類型一一劃分出來, , 形成一個由小到
3、大形成一個由小到大的分類系統。再把整個分類系統畫成一張分群圖的分類系統。再把整個分類系統畫成一張分群圖( (又又稱稱譜系譜系圖圖), ), 用它把所有樣本用它把所有樣本( (或指標或指標) )間的親疏關系間的親疏關系表示出來。表示出來。 一個事物常常需要用多個變量來刻畫,如果對于一一個事物常常需要用多個變量來刻畫,如果對于一群有待分類的樣本點需用群有待分類的樣本點需用p個變量描述,則這個樣本點個變量描述,則這個樣本點可以看成是可以看成是 空間中的一個點。空間中的一個點。聚類分析根據分類對象的不同可分為聚類分析根據分類對象的不同可分為Q型和型和R型兩大類型兩大類Q型是對型是對樣本樣本進行分類處理
4、,其作用在于進行分類處理,其作用在于:1. 具有共同特點的樣本聚在一起具有共同特點的樣本聚在一起2. 所得結果比傳統的定性分類方法更細致、全面、所得結果比傳統的定性分類方法更細致、全面、合理合理二、聚類對象:二、聚類對象:樣本、變量樣本、變量pRR型是對型是對變量變量進行分類處理,其作用在于:進行分類處理,其作用在于:1. 可以了解變量間及變量組合間的親疏關系可以了解變量間及變量組合間的親疏關系2. 可以根據變量的聚類結果及它們之間的關系,可以根據變量的聚類結果及它們之間的關系,選擇主要變量進行回歸分析或選擇主要變量進行回歸分析或Q型聚類分析型聚類分析相似性度量相似性度量 進行進行“相關性相關
5、性”或或“相似性相似性”度量。在相似性度量。在相似性度量中常常包含有許多主觀上的考慮,但是最重要度量中常常包含有許多主觀上的考慮,但是最重要的是考慮指標性質或觀測的尺度。的是考慮指標性質或觀測的尺度。對對樣本進行聚類時,樣本進行聚類時,“靠近靠近”往往是往往是距離距離。對指標進行聚類時,根據對指標進行聚類時,根據相關系相關系數數或某種或某種關聯性關聯性度量度量來來聚類。聚類。Q型型樣本間樣本間的的“相似性相似性”度量度量距離距離 設每個樣本有 p 個指標, 觀察值記為nixxxxTpiiii, 2 , 1,),(21(1)每個樣本 可看成是 p 維空間的一個點。于是, 可用各點之間的距離來衡量
6、各樣本點之間的接近程度。 樣本 和 之間的距離 , 一般應滿足如下條件: () , 且 時當且僅當 ; () ; () ; 有時所用的距離不滿足(), 但在廣義的角度上仍稱為距離。常用的距離有如下幾種:ixixjx),(jixxd0),(jixxd0),(jixxdjixx ),(),(ijjixxdxxd),(),(),(jkkijixxdxxdxxdpkjkikijxxd12112)(pkjkikijxxd 1、閔氏距離、閔氏距離(Minkowski)2、絕對距離(、絕對距離(Block距離)距離)3、歐氏距離、歐氏距離(Euclidean distance)qpkqjkikijxxd11
7、)(4、切比雪夫距離、切比雪夫距離(Chebychev)jkikpkijxxd1max)(6.馬氏距離馬氏距離5.數據的標準化數據的標準化ijjijjxxxS jjxSj其中 和是第 個指標的均值和樣本標準差以上距離與各變量的量綱有關,為了消除量綱的以上距離與各變量的量綱有關,為了消除量綱的影響,可對數據標準化。影響,可對數據標準化。21( )( )( )( )()()()ijijijdMxxSxx 例例1 歐洲各國的語言有許多相似之處,有的十分歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關系,也許通過比較相似。為了研究這些語言的歷史關系,也許通過比較他們數字的表達式比較
8、恰當。表格列舉出英語,挪威他們數字的表達式比較恰當。表格列舉出英語,挪威語,丹麥語,荷蘭語,德語,法語,西班牙語,意大語,丹麥語,荷蘭語,德語,法語,西班牙語,意大利語,波蘭語,匈牙利語和芬蘭語的利語,波蘭語,匈牙利語和芬蘭語的1,2,10的拼法,的拼法,希望計算這希望計算這11種語言之間的語言的距離種語言之間的語言的距離.11種歐洲語言的數詞選擇適用的距離選擇適用的距離 在聚類分析中通常要結合實際問題來選擇在聚類分析中通常要結合實際問題來選擇適用適用的的距離距離, , 有時應根據實際問題定義新的距離有時應根據實際問題定義新的距離, , 顯然,本例無法直接用上述公式來計算距離。但顯然,本例無法
9、直接用上述公式來計算距離。但可以發現可以發現前三種文字前三種文字( (英、挪、丹英、挪、丹) )很相似很相似, , 特別是每個單詞的第特別是每個單詞的第一一個字母。可以用個字母。可以用1010個數詞個數詞中中第一個第一個字母字母不同不同的的個數個數來定義兩種語言之間的距離。來定義兩種語言之間的距離。例如:英語和挪威語中只有例如:英語和挪威語中只有1 1和和8 8的第一個字母不同的第一個字母不同, , 則它們之間的距離為則它們之間的距離為2 2。E N Da Du G Fr Sp I P H Fi E 0 N 2 0Da 2 1 0Du 7 5 6 0G 6 4 5 5 0Fr 6 6 6 9
10、7 0Sp 6 6 5 9 7 2 0I 6 6 5 9 7 1 1 0P 7 7 6 10 8 5 3 4 0H 9 8 8 8 9 10 10 10 10 0Fi 9 9 9 9 9 9 9 9 9 8 0首先定義類與類之間的距離,由類間距離的定義首先定義類與類之間的距離,由類間距離的定義 不同產生不同的系統聚類分析。常見的類間的距離不同產生不同的系統聚類分析。常見的類間的距離有有法。它們的歸類步驟基本是一致的。法。它們的歸類步驟基本是一致的。8種之多,與之相應的系統聚類分析也有種之多,與之相應的系統聚類分析也有8種之多、種之多、分別為最短距離法、最長距離法、中間距離法、重心分別為最短距離
11、法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法、類平均法、可變類平均法、可變法和離差平方和Q型型類與類類與類間間的的“相似性相似性”度量度量 說明:說明: 用 i , j 表示樣本 。用 表示 與 之間的距離, 用 與 表示兩個類, 所包含的樣本數分別為 與 之間的距離用 表示。下面給出四種最常用的類與類之間距離的定義。jixx ,ixijdjxqGpGpGqGpnqn),(qpGGD1 、最短距離(、最短距離(Nearest Neighbor)x21x12x22x1112dqpijqppqGjGidGGDD,min),(即定義 與 之間的距離為 與 中最近的
12、兩個樣本的距離。 pGqGpGqGn最短距離法進行聚類分析的步驟如下:最短距離法進行聚類分析的步驟如下:(1)定義樣品之間距離,計算樣品的兩兩距離,得一距離)定義樣品之間距離,計算樣品的兩兩距離,得一距離 陣記為陣記為D(0) ,開始每個樣品自成一類,顯然這時,開始每個樣品自成一類,顯然這時Dij = dij。(2)找出距離最小元素,設為)找出距離最小元素,設為Dpq,則將,則將Gp和和Gq合并成一個合并成一個 新類,記為新類,記為Gr,即,即Gr = Gp,Gq。(3)按()按(5.12)計算新類與其它類的距離。)計算新類與其它類的距離。 (4)重復()重復(2)、()、(3)兩步,直到所有
13、元素。并成一類為)兩步,直到所有元素。并成一類為 止。如果某一步距離最小的元素不止一個,則對應這些止。如果某一步距離最小的元素不止一個,則對應這些 最小元素的類可以同時合并。最小元素的類可以同時合并。n【例例2】設有六個樣品,每個只測量一個指標,分別是設有六個樣品,每個只測量一個指標,分別是1,2,5,7,9,10,試用最短距離法將它們分類。,試用最短距離法將它們分類。(1)樣品采用絕對值距離,計算樣品間的距離陣)樣品采用絕對值距離,計算樣品間的距離陣D(0) ,見,見表表1表表1 G1G2G3G4G5G6G1 0G2 10G3 430G4 6520G5 8742 0G6 9852 10 D(
14、0)(2)D(0)中最小的元素是中最小的元素是D12D561,于是將,于是將G1和和G2合合并成并成G7,G5和和G6合并成合并成G8,并利用(,并利用(5.12)式計算新類與其)式計算新類與其它類的距離它類的距離D(1) ,見表,見表2表表2 (3)在)在D(1)中最小值是中最小值是D34D482,由于,由于G4與與G3合并,合并,又與又與G8合并,因此合并,因此G3、G4、G8合并成一個新類合并成一個新類G9,其與其,其與其它類的距離它類的距離D(2) ,見表,見表3表表3 (4)最后將)最后將G7和和G9合并成合并成G10,這時所有的六個樣品聚為一,這時所有的六個樣品聚為一類,其過程終止
15、。類,其過程終止。上述聚類的可視化過程見圖上述聚類的可視化過程見圖1所示,橫坐標的刻度表示并類所示,橫坐標的刻度表示并類的距離。這里我們應該注意,聚類的個數要以實際情況所定,的距離。這里我們應該注意,聚類的個數要以實際情況所定,其詳細內容將在后面討論。其詳細內容將在后面討論。圖圖1 最短距離聚類法的過程最短距離聚類法的過程G2=2G1=1G3=5G4=7G5=9G6=10G7G8G9G10123D2.最長距離(最長距離(Furthest Neighbor )x11x21n再找距離最小兩類并類,直至所有的樣品全歸為一類為止。再找距離最小兩類并類,直至所有的樣品全歸為一類為止。可以看出最長距離法與
16、最短距離法只有兩點不同:可以看出最長距離法與最短距離法只有兩點不同:一是類與類之間的距離定義不同;一是類與類之間的距離定義不同;另一是計算新類與其它類的距離所用的公式不同。另一是計算新類與其它類的距離所用的公式不同。n【例例2】針對例針對例1的數據,試用重心法將它們聚類。的數據,試用重心法將它們聚類。(1)樣品采用歐氏距離,計算樣品間的平方距離陣)樣品采用歐氏距離,計算樣品間的平方距離陣D2(0),見,見表表4所示。所示。 表表4 (2)D2(0)中最小的元素是中最小的元素是D212D2561,于是將,于是將G1和和G2合合并成并成G7,G5和和G6合并成合并成G8,并利用(,并利用(5.18
17、)式計算新類與)式計算新類與其它類的距離得到距離陣其它類的距離得到距離陣D2(1) ,見表,見表5: 其中,其中,其它結果類似可以求得其它結果類似可以求得 (3)在)在D2(1)中最小值是中最小值是D2344,那么,那么G3與與G4合并一個新合并一個新類類G9,其與與其它類的距離,其與與其它類的距離D2(2) ,見表,見表6: 表表6 (4)在中最小值是)在中最小值是12.5,那么與合并一個新類,其與與,那么與合并一個新類,其與與其它類的距離,見表其它類的距離,見表7:表表7 (5)最后將)最后將G7和和G10合并成合并成G11,這時所有的六個樣品聚為一類,這時所有的六個樣品聚為一類,其過程終
18、止。其過程終止。上述重心法聚類的可視化過程見圖上述重心法聚類的可視化過程見圖3所示,橫坐標的刻度表所示,橫坐標的刻度表示并類的距離。示并類的距離。圖圖3 重心聚類法的過程重心聚類法的過程G1=1G2=2G3=5G4=7G5=9G6=102412.5D1G9G7G8G10G115. 離差平方和法離差平方和法該方法是該方法是Ward提出來的,所以又稱為提出來的,所以又稱為Ward法。該方法的基法。該方法的基本思想來自于方差分析,如果分類正確,同類樣品的離差平本思想來自于方差分析,如果分類正確,同類樣品的離差平方和應當較小,類與類的離差平方和較大。具體做法是先將方和應當較小,類與類的離差平方和較大。
19、具體做法是先將n個樣品各自成一類,然后每次縮小一類,每縮小一類,離個樣品各自成一類,然后每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到差平方和就要增大,選擇使方差增加最小的兩類合并,直到所有的樣品歸為一類為止。所有的樣品歸為一類為止。設將設將n個樣品分成個樣品分成k類類G1,G2,Gk,用,用Xit表示表示Gt中的第中的第I個樣品,個樣品,nt表示表示Gt中樣品的個數,中樣品的個數, 是是Gt的重心,則的重心,則Gt的樣品的樣品離差平方和為離差平方和為2112121nkkjnkkinkkjkiijxxxxCnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(1、夾角余弦、夾角余弦2、相關系數、相關系數R型聚類統計量型聚類統計量 對兩個指標之間的相似程度用對兩個指標之間的相似程度用相關系數相關系數來刻劃,來刻劃,相關系數相關系數絕對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學生科學發明課件圖片
- 教學課件新穎模板
- 金融行業財務總監任職協議書
- 互聯網采購法務與合同管理創新發展合同
- 拆除工程拆除物再利用技術協議
- 教育機構財務代理及費用結算合同
- 財務顧問與保險公司保密及保險產品推廣協議
- KTV會員卡銷售與積分管理承包協議
- 一年級線上教學課件數學
- 碳預浸料市場分析:預計2031年全球市場銷售額將達到105.7億美元
- 大疆在線測評題
- 網絡物流保險行業發展概況及未來五年行業數據趨勢預測
- 2024年山東濟南初中學業水平考試物理試卷真題(含答案詳解)
- 初三九年級化學全冊導學案(人教新課標版)
- 校園除草課件
- 成都市2022級(2025屆)高中畢業班摸底測試(零診)數學試卷(含答案)
- 社會主義核心價值觀融入幼兒園班級管理課程教學探索
- 門靜脈血栓的介入治療
- SL721-2015水利水電工程施工安全管理導則
- 《短視頻拍攝與制作》課件-3短視頻中期拍攝
- 建設項目使用林地恢復林業生產條件方案設計
評論
0/150
提交評論