




已閱讀5頁,還剩4頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
應用多元統計分析第五章 聚類分析 主講:孔 幸 組員:楊海生 王晶晶 田艷霞 龔祿娃第五章 聚類分析習題5.8試使用系統聚類法和K-均值法分別對這些地區進行聚類分析,并對結果進行比較分析。將數據導入SPSS,分析得到以下結果:5.8.1 系統聚類分析(類平均法)1.系統聚類分析樹狀圖使用平均聯接(組間)的樹狀圖重新調整距離聚類合并圖5.8-1系統聚類法樹狀圖如圖5.8-1所示,選擇的聚類方法為類平均法,計算距離的方法(或相似性的度量方法)為歐氏距離平方。從樹狀圖可見,將16個地區分成4類:第一類:上海,經濟相對發達地區,農民每人平均生活消費支出情況的六個經濟指標相對于16個地區來說都比較大,說明上海農民的平均生活消費水平在16個地區中最高的。第二類:北京和浙江,經濟中上等地區,農民每人平均生活消費支出的六個經濟指標相對于其他的13個地區(除上海外)都比較高,說明北京和浙江地區農民的平均生活消費水平在16個地區中屬于中上等水平。第三類:天津、江蘇、遼寧、福建、江西、安徽、內蒙古、黑龍江和吉林,經濟中等地區,這7個地區農民的平均生活消費水平在16個地區中屬于中等水平。第四類:河北、河南、山西和山東,經濟中下等地區,這4個地區農民的平均生活消費水平在16個地區中中下等水平,即在16個地區中是相對較低的。5.8.2 K-均值法通過上述的系統聚類分析(類平均法)我們發現,16個地區農民的平均生活消費水平可以分成4類,因此,我們運用K-均值法做快速聚類分析時,將16個地區聚成的類數設定為4類。在SPSS中的運行結果解釋具體如下:1.首先分析方差分析表,見表5.8-1表5.8-1 方差分析表聚類誤差FSig.均方df均方df食品5127.237396.7841252.9760.000衣著100.666328.916123.4810.050燃料24.794311.122122.2290.137住房3015.5423124.8621224.1510.000交通和通訊341.567360.105125.6830.012娛樂教育文化4.53932.555121.7770.205從表5.8-1中可見,聚成的四類在食品、衣著、燃料、住房、交通和通訊以及娛樂教育文化六個經濟指標的均值間無差異的原假設下,出現目前值或更極端值的概率分別為0.000、0.050、0.137、0.000、0.012和0.205,故變量食品、衣著、住房以及交通和通訊在分類過程中均在統計學上有顯著性意義(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娛樂教育文化變量無統計學上的顯著性意義(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娛樂教育文化變量后重新做聚類分析。剔除燃料和娛樂教育文化后重新做的聚類分析結果解釋如下:2.迭代過程分析表5.8-2 迭代過程中類中心得變化量迭代聚類中心內的更改1234115.3050.00012.19522.66420.0000.0000.0000.000表5.8-2顯示了迭代過程的基本情況,它表明迭代到第二次時,類中心點已沒有太大變化達到收斂。3.給出個觀測量所屬的類及與所屬類中心的距離表5.8-3 各觀測量所屬類成員表地區聚類距離地區聚類距離北京115.305上海20.000天津424.186江蘇417.877河北312.195浙江115.305山西311.569安徽411.564內蒙古418.423福建410.319遼寧414.599江西413.464吉林422.664山東319.847黑龍江312.010河南36.823表5.8-3中聚類列給出了觀測量所屬的類別,距離列給出了觀測量與所屬類中心的距離。4.給出聚類結果形成的中心的各變量值表5.8-4 最終的類中心表聚類1234食品180.13221.11106.65141.78衣著38.1738.6426.2328.15住房53.83115.6519.9825.09交通和通訊41.6850.8223.426.01結合表5.8-3和表5.8-4,我們可以看出16個地區被分成4類,第一類包括:北京和浙江,這一類的類中心食品、衣著、住房以及交通和通訊的經濟指標值分別為180.13、38.17、53.83和41.68,這類地區農民每人平均生活消費水平在16個地區中屬于中上等。第二類為上海,這一類的類中心食品、衣著、住房以及交通和通訊的經濟指標值分別為221.11、38.64、115.65和50.82,上海農民每人平均生活消費水平在16個地區中屬于最高的。第三類包括:河北、山西、黑龍江、山東和河南,這一類的類中心食品、衣著、住房以及交通和通訊的經濟指標值分別為106.65、26.23、19.98和23.4,這類地區農民每人平均生活消費水平在16個地區中屬于中等。第四類包括:天津、內蒙古、遼寧、吉林、江蘇、安徽、福建和江西,這一類的類中心食品、衣著、住房以及交通和通訊的經濟指標值分別為141.78、28.15、25.09和26.01,這類地區農民每人平均生活消費水平在16個地區中是相對較低的。5.給出分類變量的方差分析表表5.8-5 方差分析表聚類誤差FSig.均方df均方df食品5127.237396.7841252.9760.000衣著100.666328.916123.4810.050住房3015.5423124.8621224.1510.000交通和通訊341.567360.105125.6830.012表5.8-5給出了分類變量的方差分析表,從表中可見用來聚類的4個變量食品、衣著、住房以及交通和通訊在分四類過程中,均有統計學上的顯著性意義(P=0.000、0.050、0.000和0.012都小于或等于0.05),表明用這4個變量將16各地區分成四類的快速聚類過程是成功的,聚類效果有統計學意義。綜上所述,將我國16個地區農民支出情況的抽樣調查數據通過系統聚類分析和K-均值法聚類分析可以看出,運用這兩種方法分析得出的結果基本上一致,但是也有兩點不同:(1)在系統分類法分析的結果中,將黑龍江地區與天津、內蒙古和江西等地區歸為一類,而在K-均值法聚類分析結果中,將黑龍江地區與河南、河北、山東和山西等地區歸為一類。(2)在系統分類法分析的結果中,將上海地區分成第一類,北京和浙江地區分成第二類,天津、內蒙古和江西等地區分成第三類,河南、河北、山東和山西等地區分成第四類;而在K-均值法聚類分析結果中,北京和浙江地區分成第一類,上海地區分成第二類,河南、河北、山東和山西等地區分成第三類,天津、內蒙古和江西等地區分成第四類。習題5.9試利用兩種不同的聚類法對城市進行聚類分析。將數據導入SPSS,分析得到以下結果:5.9.1系統聚類分析(類平均法)1. 系統聚類分析樹狀圖使用平均聯接(組間)的樹狀圖重新調整距離聚類合并圖5.9-1 系統聚類法樹狀圖如圖5.9-1所示,選擇的聚類方法為類平均法,計算距離的方法(或相似性的度量方法)為歐氏距離平方。從樹狀圖可見,將34個我國部分省會城市和計劃單列市分成4類:第一類:深圳,經濟較發達城市。第二類:重慶和成都,經濟中等城市第三類:上海和廣州,經濟中上等城市第四類:長春、南昌、哈爾濱、昆明、石家莊、蘭州、西寧、南寧、太原、銀川、烏魯木齊、合肥、福州、海口、貴陽、鄭州、西安、沈陽、長沙、濟南、青島、武漢、杭州、寧波、南京、天津、大連、北京和廈門。經濟中下等城市。5.9.2系統聚類分析(中間距離法)1.系統聚類分析樹狀圖使用中位數聯接的樹狀圖重新調整距離聚類合并圖5.9-2 系統聚類法樹狀圖如圖5.9-2所示,選擇的聚類方法為中間距離法,計算距離的方法(或相似性的度量方法)為歐氏距離平方。從樹狀圖可見,將34個我國部分省會城市和計劃單列市分成4類:第一類:深圳,經濟較發達城市。第二類:重慶和成都,經濟中等城市。第三類:杭州、寧波、南京、天津、沈陽、長沙、青島、濟南、武漢、大連、北京、廈門、上海和廣州。經濟中上等城市。第四類:長春、南昌、哈爾濱、昆明、石家莊、蘭州、西寧、南寧、太原、銀川、烏魯木齊、合肥、福州、海口、貴陽、鄭州、和西安。經濟發展相對緩慢城市。綜上所述,通過運用兩種不同的系統聚類法(類平均法和中間距離法)對城市進行聚類分析,我們可以看
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論