




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、SPSS 16實用教程第8章 聚類分析與判別分析聚類分析與判別分析的基本概念8.1層次聚類分析中的Q型聚類8.2層次聚類分析中的R型聚類8.3快速聚類分析8.4判 別 分 析8.5 本章介紹統計學中經常使用的分類統計分析方法聚類分析與判別分析。主要內容有層次聚類分析、快速聚類分析和判別分析。其中層次聚類分析根據聚類的對象不同分成Q型聚類和R型聚類。8.1 聚類分析與判別分析的基本概念 統計學研究這類問題的常用分類統計方法主要有聚類分析(cluster analysis)與判別分析(discriminant analysis)。其中聚類分析是統計學中研究這種“物以類聚”問題的一種有效方法,它屬于
2、統計分析的范疇。聚類分析的實質是建立一種分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區別。 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。因此我們說聚類分析是一種探索性的分析方法。 對個案的聚類分析類似于判別分析,都是將一些觀察個案進行分類。聚類分析時,個案所屬的群組特點還未知。也就是說,在聚類分析之前,
3、研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知。 變量的聚類分析類似于因素分析。兩者都可用于辨別變量的相關組別。不同在于,因素分析在合并變量的時候,是同時考慮所有變量之間的關系;而變量的聚類分析,則采用層次式的判別方式,根據個別變量之間的親疏程度逐次進行聚類。 聚類分析的方法,主要有兩種,一種是“快速聚類分析方法”(KMeans Cluster Analy- sis),另一種是“層次聚類分析方法”(Hierarchical Cluster Analysis)。如果觀察值的個數多或文件非常龐大(通常觀察值在200個以上),則宜采用快速聚類分析方法。因為觀察值數目巨大,層次聚類分析的
4、兩種判別圖形會過于分散,不易解釋。 判別分析是一種有效的對個案進行分類分析的方法。和聚類分析不同的是,判別分析時,組別的特征已知。如銀行為了對貸款進行管理,需要預測哪些類型的客戶可能不會按時歸還貸款。已知過去幾年中,900個客戶的貸款歸還信譽度,據此可以將客戶分成兩組:可靠客戶和不可靠客戶。 再通過收集客戶的一些資料,如年齡、工資收入、教育程度、存款等,將這些資料作為自變量。通過判別分析,建立判別函數。那么,如果有150個新的客戶提交貸款請求,就可以利用創建好的判別函數,對新的客戶進行分析,從而判斷新的客戶是屬于可靠客戶類,還是不可靠客戶類。8.2 層次聚類分析中的Q型聚類 層次聚類分析是根據
5、觀察值或變量之間的親疏程度,將最相似的對象結合在一起,以逐次聚合的方式(Agglomerative Clustering),它將觀察值分類,直到最后所有樣本都聚成一類。 層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析;另一種是對研究對象的觀察變量進行分類,稱為R型聚類。它使具有共同特征的變量聚在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數。 本節講述Q型聚類的原理和SPSS的實現過程,下一節將講述R型聚類的實現過程。 定義:層次聚類分析中的Q型聚類,它使具有共同特點的樣本聚齊在一起,
6、以便對不同類的樣本進行分析。8.2.1 統計學上的定義和計算公式 層次聚類分析中,測量樣本之間的親疏程度是關鍵。聚類的時候會涉及到兩種類型親疏程度的計算:一種是樣本數據之間的親疏程度,一種是樣本數據與小類、小類與小類之間的親疏程度。下面講述這兩種類型親疏程度的計算方法和公式。 計算公式如下。 樣本數據之間的親疏程度主要通過樣本之間的距離、樣本間的相關系數來度量。SPSS根據變量數據類型的不同,采用不同的測定親疏程度的方法。 樣本若有k個變量,則可以將樣本看成是一個k維的空間的一個點,樣本和樣本之間的距離就是k維空間點和點之間的距離,這反映了樣本之間的親疏程度。聚類時,距離相近的樣本屬于一個類,
7、距離遠的樣本屬于不同類。1連續變量的樣本距離測量方法 (1)歐氏距離(Euclidean Distance)兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根,計算公式為 (2)歐氏距離平方(Squared Euclidean Distance) 兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和,計算公式為 (3)Chebychev距離 兩個樣本之間的Chebychev距離是各樣本所有變量值之差絕對值中的最大值,計算公式為 (4)Block距離 兩個樣本之間的Block距離是各樣本所有變量值之差絕對值的總和,計算公式為 (5)Minkowski距離 兩個樣本之間的Minkows
8、ki距離是各樣本所有變量值之差絕對值的p次方的總和,再求p次方根。計算公式為 (6)Customized距離(用戶自定義距離) 兩個樣本之間的Customized距離是各樣本所有變量值之差絕對值的p次方的總和,再求q次方根。計算公式為 連續變量親疏程度的度量,除了上面的各種距離外,還可以計算其他統計指標。如Pearson相關系數、Sosine相似度等。2連續變量的樣本親疏程度的其他測量方法3順序或名義變量的樣本親疏程度測量方法 對于此類變量,可以計算一些有關相似性的統計指標來測定樣本間的親疏程度。也可以通過下面兩個計算公式來得到。4樣本數據與小類、小類與小類之間的親疏程度測量方法 SPSS默認
9、的變量為Var00001、Var00002等,用戶也可以根據自己的需要來命名變量。SPSS變量的命名和一般的編程語言一樣,有一定的命名規則,具體內容如下。 所謂小類,是在聚類過程中根據樣本之間親疏程度形成的中間類,小類和樣本、小類與小類繼續聚合,最終將所有樣本都包括在一個大類中。 在SPSS聚類運算過程中,需要計算樣本與小類、小類與小類之間的親疏程度。SPSS提供了多種計算方法(計算規則)。 (1)最短距離法(Nearest Neighbor) 以當前某個樣本與已經形成小類中的各樣本距離的最小值作為當前樣本與該小類之間的距離。 (2)最長距離法(Furthest Neighbor) 以當前某個
10、樣本與已經形成小類中的各樣本距離的最大值作為當前樣本與該小類之間的距離。 (3)類間平均鏈鎖法(Between-groups Linkage) 兩個小類之間的距離為兩個小類內所有樣本間的平均距離。 (4)類內平均鏈鎖法(Within-groups Linkage) 與小類間平均鏈鎖法類似,這里的平均距離是對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內的樣本對。 (5)重心法(Centroid Clustering) 將兩小類間的距離定義成兩小類重心間的距離。每一小類的重心就是該類中所有樣本在各個變量上的均值代表點。 (6)離差平方和法(Wards Method) 小類合并的方法:在聚
11、類過程中,使小類內各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類。 研究問題 對一個班同學的數學水平進行聚類。聚類的依據是第一次數學考試的成績和入學考試的成績。數據如表8-1所示。8.2.2 SPSS中實現過程表8-1學生的數學成績姓 名數 學入 學 成 績hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00 實現步驟圖8-1 在菜單中選擇“Hierarchi
12、cal Cluster”命令圖8-2 “Hierarchical Cluster Analysis”對話框(一) 圖8-3 “Hierarchical Cluster Analysis:Method”對話框(一) 圖8-4 “Hierarchical Cluster Analysis:Plots” 對話框(一) 圖8-5 “Hierarchical Cluster Analysis:Statistics”對話框(一)圖8-6 “Hierarchical Cluster Analysis:Save New Var”對話框 由于本例中選中的選項較多,這里按照各個結果分別解釋。 (1)首先是層次聚類
13、分析的概要結果,該結果是SPSS輸出結果文件中的第一個表格,如下表所示。8.2.3 結果和討論 (2)輸出的結果文件中第二個表格如下表所示。 (3)輸出的結果文件中第三個表格為層次聚類分析的凝聚狀態表,包括: (4)輸出的結果文件中第四個表格如下表所示。 (5)輸出的結果文件中第五個表格如下表所示。 (6)輸出的結果文件中第六部分如圖8-7所示。 (7)由于對圖8-6“Hierarchical Cluster Analysis: Save New Var”對話框進行了設置,將聚類成三類時,各個樣本的類歸屬情況保存為一個變量,因此在SPSS數據編輯窗口中就新增了一個變量的值,如圖8-8所示。圖8
14、-8 層次聚類分析結果保存8.3 層次聚類分析中的R型聚類8.3.1 統計學上的定義和計算公式 定義:層次聚類分析中的R型聚類是對研究對象的觀察變量進行分類,它使具有共同特征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數。 計算公式:R型聚類的計算公式和Q型聚類的計算公式是類似的,不同的是R型聚類是對變量間進行距離的計算,Q型聚類則是對樣本間進行距離的計算。 研究問題 對一個班同學的各科成績進行聚類,分析哪些課程是屬于一個類的。聚類的依據是4門功課的考試成績,數據如表8-2所示。8.3.2 SPSS中實現過程表8-2學生的四門課程的成績姓 名數 學物
15、理語 文政 治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00 實現步驟圖8-9 在菜單中選擇“Hierarchical Cluster”命令圖8-10 “Hier
16、archical Cluster Analysis”對話框(二)圖8-11 “Hierarchical Cluster Analysis:Method”對話框(二) 圖8-12 “Hierarchical Cluster Analysis:Plots”對話框(二)圖8-13 “Hierarchical Cluster Analysis:Statistics”對話框(二) (1)首先是層次R型聚類分析的結果,該結果是SPSS輸出結果文件中的第一個表格。8.3.3 結果和討論 (2)輸出的結果文件中第二個表格如下表所示。 (3)輸出的結果文件中第三個表格如下表所示。 (4)輸出的結果文件中第四個表
17、格如下表所示。 (5)輸出的結果文件中第五個表格如下表所示。 (6)輸出的結果文件中第六部分如下:8.4 快速聚類分析 SPSS層次聚類分析對計算機的要求比較高,在大樣本的情況下,可以采用快速聚類分析的方法。采用快速聚類分析,得到的結果比較簡單易懂,對計算機的性能要求也不高,因此應用也比較廣。 定義:快速聚類分析是由用戶指定類別數的大樣本資料的逐步聚類分析。它先對數據進行初始分類,然后逐步調整,得到最終分類。快速聚類分析的實質是K-Mean聚類。 8.4.1 統計學上的定義和計算公式 和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標志。但兩者的不同在于:層次聚類可以對不同的聚類類數
18、產生一系列的聚類解,而快速聚類只能產生固定類數的聚類解,類數需要用戶事先指定。 另外,在快速聚類分析中,用戶可以自己指定初始的類中心點。如果用戶的經驗比較豐富,則可以指定比較合理的初始類中心點,否則,需要增加迭代的次數,以保證最終聚類結果的準確性。 計算公式如下。 快速聚類分析計算過程如下。 首先需要用戶指定聚類成多少類(比如k類)。 然后SPSS確定k個類的初始類中心點。SPSS會根據樣本數據的實際情況,選擇k個由代表性的樣本數據作為初始類中心。初始類中心也可以由用戶自行指定,需要指定K組樣本數據作為初始類中心點。 計算所有樣本數據點到k個類中心點的歐氏距離,SPSS按照距k個類中心點距離最
19、短原則,把所有樣本分派到各中心點所在的類中,形成一個新的k類,完成一次迭代過程。其中歐氏距離(Euclidean Distance)的計算公式為 SPSS重新確定k個類的中心點。SPSS計算每個類中各個變量的變量值均值,并以均值點作為新的類中心點。 重復上面的兩步計算過程,直到達到指定的迭代次數或終止迭代的判斷要求為止。 研究問題 為研究不同公司的運營特點,調查了15個公司的組織文化、組織氛圍、領導角色和員工發展4方面的內容。現要將這15個公司按照其各自的特點分成4種類型,數據如表8-3所示。8.4.2 SPSS中實現過程表8-3不同公司的特點 公 司組 織 文 化組 織 氛 圍領 導 角 色
20、員 工 發 展Microsof80.0085.0075.0090.00IBM 85.0085.0090.0090.00Dell 85.0085.0085.0060.00Apple 90.0090.0075.0090.00聯想 99.0098.0078.0080.00NPP 88.0089.0089.0090.00北京電子79.0080.0095.0097.00清華紫光89.0078.0081.0082.00北大方正75.0078.0095.0096.00TCL 60.0065.0085.0088.00娃哈哈 79.0087.0050.0051.00Angel 75.0076.0088.0089
21、.00Hussar 60.0056.0089.0090.00世紀飛揚100.00100.0085.0084.00Vinda 61.0064.0089.0060.00 實現步驟圖8-15 在菜單中選擇“K-Means Cluster”命令 圖8-16 “K-Means Cluster Analysis”對話框圖8-17 “K-Means Cluster Analysis:Options”對話框圖8-18 “K-Means Cluster Analysis:Iterate”對話框 圖8-19 “K-Means Cluster :Save New Variable”對話框 圖8-20 指定初始類中心
22、點 本例中選中的選項較多,這里按照各個結果分別解釋。 (1)SPSS輸出結果文件中的第一部分如下表所示。 8.4.3 結果和討論 (2)輸出的結果文件中第二部分如下表所示。 (3)輸出的結果文件中第三部分是快速聚類分析后的各個類包含樣本的情況。 (4)輸出的結果文件中第四部分如下表所示。 (5)輸出的結果文件中第五個部分如下表所示。 (6)輸出的結果文件中第六個部分如下表所示。 (7)輸出結果的最后一個表格列出了4個類中分別包括的樣本數,如下表所示。 (8)在步驟5中曾指定了將樣本所屬類以及樣本和類中心點的距離,作為樣本的2個新變量保存到SPSS的數據編輯窗口中。SPSS運行后,數據編輯窗口如
23、圖8-21所示,其中我們可以看到新增加了兩個變量(圖中加深的兩列),分別表示樣本所屬類以及樣本和類中心點的距離。8.5 判 別 分 析 前面3節講述了不同種聚類分析的方法,不論是哪種方法,聚類分析都是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。 本節講述的判別分析,也是一種比較常用的分類分析方法。判別分析先根據已知類別的事物的性質,利用某種技術建立函數式,然后對未知類別的新事物進行判斷以將之歸入已知的類別中。 有學者在研究中提出,可以利用判別分析來對聚類分析結果的準確性進行檢驗。聚類分析分成幾類后,即可以作為判別分析的類別輸入,進行判斷。 定義:判別分析先根據
24、已知類別的事物的性質(自變量),建立函數式(自變量的線性組合,即判別函數),然后對未知類別的新事物進行判斷以將之歸入已知的類別中。8.5.1 統計學上的定義和計算公式 判別分析有如下的假定: 預測變量服從正態分布。 預測變量之間沒有顯著的相關。 預測變量的平均值和方差不相關。 預測變量應是連續變量,因變量(類別或組別)是間斷變量。 兩個預測變量之間的相關性在不同類中是一樣的。 在分析的各個階段應把握如下的原則: 事前組別(類)的分類標準(作為判別分析的因變量)要盡可能準確和可靠,否則會影響判別函數的準確性,從而影響判別分析的效果。 所分析的自變量應是因變量的重要影響因素,應該挑選既有重要特性又
25、有區別能力的變量,達到以最少變量而有高辨別能力的目標。 初始分析的數目不能太少。 這些判別函數是各個獨立預測變量的線性組合。程序自動選擇第一個判別函數,以盡可能多地區別各個類,然后再選擇和第一個判別函數獨立的第二個判別函數,盡可能多地提供判別能力。程序將按照這種方式,提供剩下的判別函數。判別函數的個數為k。 圖8-22 判別分析的示意圖 研究問題 調查了15個公司的組織文化、領導角色和員工發展3個方面內容作為預測變量,因變量為公司對員工的吸引力。為符合研究問題,將公司對員工的吸引力根據被測的實際填答情形,劃分為高吸引力組(group=1)、中吸引力組(group=2)和低吸引力組(group=
26、3)。數據如表8-4所示。8.5.2 SPSS中實現過程表8-4不同類的不同公司特點公 司組 織 文 化領 導 角 色員 工 發 展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001聯想99.0078.0080.001NPP88.0089.0090.002北京電子79.0095.0097.003清華紫光89.0081.0082.001北大方正75.0095.0096.001TCLE60.0085.0088.003世紀成79.0050.0051.002Angel75.
27、0088.0089.001Hussar160.0089.0090.003世紀飛揚100.0085.0084.003Vinda61.0089.0060.003 實現步驟圖8-23 在菜單中選擇“Discriminant”命令圖8-24 “Discriminant Analysis”對話框圖8-25 “Discriminant Analysis:Define”對話框圖8-26 “Discriminant Analysis:Stepwise Method”對話框 圖8-27 “Discriminant Analysis:Statistics”對話框 圖8-28 “Discriminant Analysis:Class
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 短視頻平臺內容監管與網絡生態治理創新研究與實踐報告
- 數字孿生視角下2025年城市規劃與建設中的智慧城市能源管理系統優化與評估優化優化報告
- 2025年智慧交通系統交通流量預測技術智能交通數據挖掘與智能控制報告
- 工業互聯網平臺微服務架構性能測試報告2025:邊緣計算與實時性能優化
- 電競商業贊助策略報告:2025年品牌合作案例分析
- 功能性飲料在健身器材銷售中的市場推廣策略報告
- 培訓班門店財務管理制度
- 亞馬遜銷售組長管理制度
- 早餐健康宿舍管理制度
- 房產公司運營部管理制度
- 2025年宜賓市英語七下期末復習檢測試題含答案
- 項目管理從立項到結項全解析
- 全國導游人員資格考試單科綜合測試卷(科目一:政策與法律法規)
- 2024年中國鐵路成都局集團有限公司招聘考試《鐵路基本常識》真題庫及答案
- 中醫診斷學考點總結
- 生態草場使用權轉讓協議
- 第18課清朝的邊疆治理教學設計-統編版七年級歷史下冊
- 物流實操試題及答案詳解
- 播出設備檢修管理制度
- 國家開放大學學習網電大證券投資分析形考任務12345答案
- 醫院醫保獎懲管理制度
評論
0/150
提交評論