聚類分析步驟_第1頁
聚類分析步驟_第2頁
聚類分析步驟_第3頁
聚類分析步驟_第4頁
聚類分析步驟_第5頁
已閱讀5頁,還剩6頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、聚類分析步驟以教材第五章習題8的數據為例,演示并說明聚類分析的詳細步驟:原始數據的輸入:見律巳 抵輸日祝圖力 敷飽叫鋌被口 分析為 圖膨【空).實用程序叫附如內容(QD 窗口 蒂助& H a面(+ M B B? #4 *B ft 耋垂毒弩1 專穿1:衣者地區食品衣著燃料住房變通和通訊娛樂教-育文化21北京190.3343779.7360.5449.019.04a.關津135.20.36.4010.4744.1636.493-. 943.河北95.2122.039.3022.4422.812.804山西104.7825.116.409.8918.173.255內蒙古128.4127.638.94

2、12.5823.99官6遼寧145.683迥17.7927.2939.093.477吉林159.3733.3818.3711.8125.295.228黑龍江116.2229.5713.2413.7621.756.049上海221.1138.6412.53115.6550.825.8910奇工蘇114.9829.1211.6742.6027;305.7411浙江169.9232.7512.7247.1234.355.0012獲微135.1123.0915.6223.5418.206.3913福建144.9221.2616.9619.5221.756.3714江西140.5421.5017.641

3、9.1915.974.9415山東115.8430.2612:2033. S033.773.8516河南101.1823.268.4620.2020.504.3017選項操作:打開SPSS的“分析”一 “分類”一“系統聚類”,打開“系統聚類”對話框。把“食品”、“衣著”等6變量輸入待分析變 量框;把“地區”輸入“標注個案”;“分群”選中“個案”;“輸出”選中“統計 量”和“圖”。(如下圖)標注案確定粘貼J取消幫助標注案確定粘貼J取消幫助相關說明:(相關說明:(1)系統聚類法是最常用的方法,其他的方法較少使用。(2)“標注個案”里輸入“地區”,在輸出結果的距離方陣和聚類樹狀圖里會 顯示出“北京”

4、、“天津”等,否則SPSS自動用“1”、“2”等代替。(3)“分群”選中“個案”也就是對北京等16個樣本進行分類,而不是對食 品等6個變量分類。(4) 必須選中“輸出”中的“統計量”和“圖,。在該例中會輸出16個地區的 歐氏距離方陣和聚類樹狀圖。設置分析的統計量打開最右上角的“統計量”對話框,選中“合并進程表”和“相似性矩陣”, “聚類成員”選中“無”。然后點擊“繼續”。打開第二個“繪制”對話框,必須選中“樹狀圖”,其他的默認即可。打開第三個對話框“方法”:聚類方法選中“最鄰近元素”;“度量標準” 選中“區間”的“歐氏距離”;“轉換值”選中“標準化”的“Z得分”,并且 是“按照變量”。打開第四

5、個對話框“保存”,“聚類成員”選默認的“無”即可。分析結果的解讀:按照SPSS輸出結果的先后順序逐個介紹:歐氏距離矩陣:是16個地區兩兩之間歐氏距離大小的方陣,該方陣是應用各 種聚類方法進行聚類的基礎。Proximity MatrixEuclidean DistanceCase1:北京2:天津3:河北4:山西5:內蒙古6:遼寧7:吉林8:黑龍江9:上海10:江蘇11:浙江11:北京.0003.8396.2896.2235.8314.7344.6914.7933.1314.3003.4042:天津3.839.0002.9113.1082.3902.1902.8922.5814.1531.8811

6、.4733:河北6.2892.911.0001.1341.3243.4933.7892.5156.5442.3283.4204:山西6.2233.1081.134.0001.3184.0514.0402.6066.8032.6203.6385:內蒙古5.8312.3901.3241.318.0003.0503.3262.5586.0922.5132.8916:遼寧4.7342.1903.4934.0513.050.0001.8002.7644.7002.6771.9847:吉林4.6912.8923.7894.0403.3261.800.0002.0525.2472.6192.2158:黑龍江

7、4.7932.5812.5152.6062.5582.7642.052.0005.7971.2902.4709:上海3.1314.1536.5446.8036.0924.7005.2475.797.0004.9363.51910:江蘇4.3001.8812.3282.6202.5132.6772.6191.2904.936.0001.91711:浙江3.4041.4733.4203.6382.8911.9842.2152.4703.5191.917.00012:安徽5.2513.4002.9923.2763.1783.0602.1461.4065.8341.9222.74313:福建5.339

8、3.6313.3043.6653.4322.9552.0881.8435.8262.3212.82614:江西5.9813.7012.9793.4203.0912.9022.1102.0416.1912.5673.07115:山東4.6811.2801.9612.4821.8401.8812.5651.8874.9861.3301.85716:河南5.8212.888.960.9891.6523.6623.6061.9726.4021.8803.221This is a dissimilarity matrix合并進程表:主要看前四列,現在以前三個步驟為例說明合并過程:第一步,樣本12和 樣本

9、13合并,此時系數為0.650;第二步,樣本3和樣本16合并,此時系數為 0.960;第三步,樣本3 (實際上是第二步樣本3和16組成的新類)和樣本4合 并,此時系數為0.989;以此類推。Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 26:101213141512126131614151051269.650.960.9891.0251.2801.2901.3181.3301.4061.4

10、731.8001.8401.8813.1313.4045:101214691891012131315153.冰柱:左側是分組數目,上側是被分組的樣本,樣本之間由等距的間隔分開,間隔 被填充的,說明相鄰兩樣本合并為一組,沒有被填充就不被合并。按照此規則, 首先從下往上看,當分為15類時,只有樣本13和12合并了,其余的各自是一 類;當分為 10 類時,從左到右依次是(7),(6),(5),(4, 16, 3),(11),(14, 13, 12),(10, 8),(15, 2),(9),(1);其他的分組數目時以此類推。(該冰柱的分組數目有2.5、7.5、 12.5等含有半組的情況,不需要掌握。)

11、1S.D-7:1.-至6:江.T4;*_L浙110:I i大9:上堂1: 1S.D-7:1.-至6:江.T4;*_L浙110:I i大9:上堂1: 上 4.樹狀圖:這是分類結果最后的樹狀圖,把整個分類情況一目了然地呈現出來了。最上 面的是標尺,數字0-25是大致按照距離比例重新標定的數值,不影響對分類結 果的觀察與結論。解讀此圖的方法是:每個樣本的右側都是虛線,虛線的端點處 是“ + ”,說明該樣本在此和另一個樣本或者組(它也有上下相對齊的“ +”)合 并為一類。如:安徽和福建在對應標尺1附近時合并為一類,之后與江西在標尺 數值4附近合并為一類。天津、山東、黑龍江、江蘇四個樣本的“ + ”看起

12、來好 像是統一對齊的,其實不是,實際情況是:天津和山東在1.280 (歐氏距離)處 對齊,黑龍江和江蘇在1.290 (歐氏距離)處對齊??傉f明:聚類分析從數學上講不是很嚴謹,所以采用不同的統計量和采取不同的聚類 方法,聚類結果可能有較大的差異。但是只要整個分析過程沒有錯誤就是完 整正確的,聚類結果都是認可的。(本例中,原始數據首先進行標準差標準化, 再求歐氏距離方陣,聚類方法采取的是最短距離法。)聚類分析的最終結果自然是分類,除了 SPSS輸出的樹狀圖,最好自己再做 出Word格式的分類表,具體分為幾類,自己看情況而定。譬如該例子就可 以分為4類或5類。聚類分析只是分類,并不能進行評判(如發展

13、水平高低等),如要評判各樣本 應結合主成分分析、因子分析等方法共同進行。其分類結果也不一定按照聚 類分析的結果為準,可以結合主成分分析、因子分析的結果進行修正。最短距離法具體計算方法及步驟在系統聚類法中,最短距離法應用比較廣泛。計算過程一般是首先對原始數 據進行標準化處理,再計算初始歐氏距離矩陣,然后應用最短距離法聚類。假設有6個樣本的初始歐氏距離矩陣如下:G1G2G3G4G5G6, 0)0.37500.4830.7760D(0=1.7491.5961.92601.5161.3361.6620.50101.9721.7432.1540.6930.5890 ,(系統聚類法在聚類之前把每個樣本看成

14、一組,用G1,G2,.代替。在該矩陣 中,第i行和第i列都代表第i組,在左側括號的外面應該自上到下依次是G1, G2,.,G6,因為word中不好輸入,所以省略了。)在初始距離系數矩陣的基礎上,用最短距離法分類的具體步驟是:1.在初始距離系數矩陣D(0)中,選出距離數值最小者,即d12=0.375,把第 一類G1和第二類G2合并為一個新類G7,記為G7=G1,G2。再利用最短距 離法計算新類G7與其他各類G3, G4, G5, G6的距離,得d73=mind13,d23=min0.483, 0.776=0.483d74=mind14,d24=min1.749, 1.596=1.596d75=m

15、ind15,d25=min1.516, 1.336=1.336d76=mind16,d26=min1.972, 1.743=1.743形成距離系數矩陣D(1)G7G3G4G5G6f 0)0.4830D=1.5961.92601.3361.6620.5010 1.7432.1540.6930.5890 J在矩陣D(1)中,選出距離數值最小者,即d73=0.483,這時G7和G3合并 為一個新類G8,記為G8=G7, G3。再利用最短距離法計算新類G8與其他各 類G4,G5,G6的距離,得D84=mind34,d74=min1.926, 1.596=1.596D85=mind35,d75=min1

16、.662, 1.336=1.336D86=mind36,d76=min2.154, 1.743=1.743形成距離系數矩陣。(2)。G8 G4 G5 G6 TOC o 1-5 h z f 0 HYPERLINK l bookmark22 o Current Document d(2) n59601.336 0.50101.743 0.693 0.589 0)在矩陣D(2)中,選出距離數值最小者,即d45=0.501,這時G4和G5合并 為一個新類G9,記為G9=G4, G5。再利用最短距離法計算新類G9與其他各 類G8,G6的距離,得D98=mind48,d58=min1.596, 1.336=1.336D96=mind46,d56=min0.693, 0.589=0.589形成距離系數矩陣。(3)。G8G9G6f 0D=1.33601.7430.5890 )4.在矩陣D(3)中,選出距離數值最小者,即d69=0.589,這時G6和G9合并 為一個新類G10,記為G1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論