統計分析 聚類分析_第1頁
統計分析 聚類分析_第2頁
統計分析 聚類分析_第3頁
統計分析 聚類分析_第4頁
統計分析 聚類分析_第5頁
已閱讀5頁,還剩49頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計分析聚類分析第一頁,共五十四頁,2022年,8月28日§10聚類分析(ClusterAnalysis)[引例10-1]第二頁,共五十四頁,2022年,8月28日§10聚類分析(ClusterAnalysis)§10.1概述§10.2統計量§10.3系統聚類(層次聚類)§10.4快速聚類第三頁,共五十四頁,2022年,8月28日§10.1概述問題的提出基本思想主要步驟基本原則主要分類§10.1概述第四頁,共五十四頁,2022年,8月28日§10.1概述問題的提出

聚類分析又稱群分析、點群分析、簇群分析等,是研究分類問題(樣本或指標)的一種多元統計方法。與其它多元統計分析方法相比,聚類分析方法比較粗糙,理論上尚不完善,目前正處于發展階段。但由于這種方法能解決許多實際問題,應用比較方便,因此越來越受到人們的重視。

第五頁,共五十四頁,2022年,8月28日§10.1概述問題的提出

第六頁,共五十四頁,2022年,8月28日基本思想假定研究對象之間存在不同程度的相似性(親疏程度)。根據觀測樣本,找出并計算一些能夠度量相似程度的統計量(相似系數、相關系數、距離等)。按照相似性統計量,將相似程度大的聚合到一類,關系疏遠的聚合到另一類,直到把所有樣本都聚合完畢,形成一個由小到大的分類系統。最后將分類系統直觀地用圖形表示出來,即譜系圖。§10.1概述第七頁,共五十四頁,2022年,8月28日主要分類R型聚類分析對變量進行聚類分析(比較:主成分、公因子)Q型聚類分析對樣本進行聚類分析(比較:主成分得分、因子得分)

§10.1概述第八頁,共五十四頁,2022年,8月28日主要分類系統聚類(hierarchicalcluster)不指定最終的類數,結論將在聚類過程中尋求,這種聚類稱為系統聚類可以對變量和樣本進行聚類分析快速聚類(K-meanscluster)事先指定用于聚類分析的類數只對樣本進行聚類分析,適合大樣本數據§10.1概述第九頁,共五十四頁,2022年,8月28日

統計量為了將樣本(或變量)進行分類,需要研究其關系。目前用得最多的方法有兩個:一種方法是用相似系數,比較相似的樣本歸為一類,不怎么相似的樣本歸為不同的類。另一種方法是將一個樣本看作P維空間的一個點,并在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。對樣本進行聚類(Q型聚類),常用的統計量為距離;對變量進行聚類(R型聚類),常用的統計量為相似系數。§10.2統計量第十頁,共五十四頁,2022年,8月28日

相似系數是指衡量全部樣本或全部變量中任何兩部分相似程度的指標。主要有內積系數、匹配系數等幾項指標,其中內積系數(innerproductcoefficient)是普通應用于數量數據的相似性指標。兩個同維向量與的各分量依次相乘再相加,稱為兩向量的內積(innerproduct)。內積的數值可以作為一種反映兩向量相似程度的指標,稱為相似系數。統計量-相似系數

相似系數(similaritycoefficient)§10.2統計量第十一頁,共五十四頁,2022年,8月28日為了消除量綱的影響,對內積進行模標準化處理,經過模標準化處理后的內積正好是兩個向量在原點處的夾角余弦。

統計量-相似系數

夾角余弦(Cosine)§10.2統計量第十二頁,共五十四頁,2022年,8月28日為了消除量綱的影響,對原始數據進行離差標準化處理,經過離差標準化處理后的內積正好是兩個向量的相關系數。

統計量-相似系數相關系數(Correlationcoefficient)§10.2統計量第十三頁,共五十四頁,2022年,8月28日

計算任何兩個樣本(指標)與之間的相關系數,其值越大表示樣本(指標)間接近程度越大,值越小表示接近程度越小。

可以根據相似系數矩陣對樣本(指標)進行分類。

統計量-相似系數

相關系數矩陣§10.2統計量第十四頁,共五十四頁,2022年,8月28日統計量-相似系數§10.2統計量第十五頁,共五十四頁,2022年,8月28日距離實質上反映的是兩個向量相異的指標,它與相似是互補的概念。距離系數的種類很多,但都有一個共同的特征,即當兩個向量完全相同時取最小值,完全不同時取最大值。統計量-距離

距離§10.2統計量第十六頁,共五十四頁,2022年,8月28日

點與點之間的距離:把每一個樣本視為p維空間中的一個點,則兩個樣本之間的距離可以定義為p維空間中兩個點之間的距離。

類與類之間的距離:類間距離是基于點間距離定義的,比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離或各類的中心之間的距離來作為類間距離。如果每一類都由一個點組成,那么點間的距離就是類間距離。統計量-距離

距離§10.2統計量第十七頁,共五十四頁,2022年,8月28日統計量-距離

明氏距離(Minkowskidistance)第i個樣本與第j個樣本間的明氏距離為:絕對值距離(absolutevaluedistance)q=1時§10.2統計量第十八頁,共五十四頁,2022年,8月28日統計量-距離

歐氏距離(Eculideandistance)q=2時切比雪夫離(Chebychevdistance)§10.2統計量歐氏距離是應用最廣泛的一種距離系數。第十九頁,共五十四頁,2022年,8月28日統計量-距離

馬氏距離(Mahalanobisdistance)設樣本的協差陣為S,其逆陣為S-1,則第i樣本與第j樣本間的馬氏距離為:§10.2統計量第二十頁,共五十四頁,2022年,8月28日統計量-距離§10.2統計量第二十一頁,共五十四頁,2022年,8月28日類與類之間的距離

最短距離設類Gp與類Gq中兩個元素之間的最短距離為Gp與類Gq之間的距離最長距離設類Gp與類Gq中兩個元素之間的最長距離為Gp與類Gq之間的距離§10.2統計量第二十二頁,共五十四頁,2022年,8月28日類與類之間的距離

重心距離設類Gp與類Gq中兩個重心之間的距離為Gp與類Gq之間的距離類平均距離設類Gp與類Gq中任意兩個元素之間距離的平均值為Gp與類Gq之間的距離§10.2統計量第二十三頁,共五十四頁,2022年,8月28日系統聚類先將每樣本(變量)看成一類,然后定義樣本(變量)間的距離(或相似系數,在SPSS軟件中把相似系數也看成是一種距離系數)和類與類間的距離。選擇距離最小的兩類將其合并成一新類,再按類間距離的定義計算新類與其它類的距離,再行合并,直至所有樣本都聚為一類為止。根據一定的標準確定類的個數。§10.3系統聚類第二十四頁,共五十四頁,2022年,8月28日聚類方法①“Between-groupslinkage”類間平均法,當兩類之間所有樣本之間距離的平均值最小時,這兩類可以合并為一類。②“Within-groupslinkage”類內平均法,當合并后所有樣本的距離的平均值最小時,這兩類可以合并為一類。③“Nearestneighbor”最短距離法,當兩類最近樣本之間的距離最小時,這兩類可以合并為一類。④“Furthestneighbor”最長距離法,當兩類最遠樣本之間的距離最小時,這兩類可以合并為一類。⑤“Centroidclustering”重心法,當兩類重心距離最小時,這兩類可以合并為一類。⑥“Medianclustering”中心法,當兩類中心距離最小時,這兩類可以合并為一類。⑦“Ward‘smethod”離差平方和法,當合并后類內部各個樣本距離(歐氏距離)的離差平方和最小時,這兩類可合并為一類。§10.3系統聚類第二十五頁,共五十四頁,2022年,8月28日聚類方法§10.3系統聚類第二十六頁,共五十四頁,2022年,8月28日類的個數的確定根據譜系圖確定分類個數的準則:各類間的距離必須較大;類中包含的元素不要太多;類的個數必須符合實際應用;如果采用幾種不同的聚類方法處理,則在各種聚類圖中應該發現相同的類。

§10.3系統聚類法第二十七頁,共五十四頁,2022年,8月28日SPSS軟件實現§10.3系統聚類法選擇對變量進行聚類第二十八頁,共五十四頁,2022年,8月28日SPSS軟件實現§10.3系統聚類法對原始數據進行離差標準化處理;采用相關系數表征變量之間的相似程度;采用離差平方和最小的方法計算類與類之間的距離。第二十九頁,共五十四頁,2022年,8月28日SPSS軟件實現結果分析-數據信息§10.3系統聚類法第三十頁,共五十四頁,2022年,8月28日SPSS軟件實現結果分析-相關系數矩陣§10.3系統聚類法第三十一頁,共五十四頁,2022年,8月28日SPSS軟件實現結果分析-聚類凝聚過程表§10.3系統聚類法Stage列出步驟序號,ClusterCombined欄中列出了合并的兩個類的序號,Nextstage欄是合并的新類再次出現的步驟序號。第三十二頁,共五十四頁,2022年,8月28日SPSS軟件實現結果分析-“Icicle”冰柱圖§10.3系統聚類法第三十三頁,共五十四頁,2022年,8月28日SPSS軟件實現對樣本進行聚類數據標準化方法:離差標準化(Zscore法)點與點間距離的計算:歐氏距離類與類間距離的計算:“Ward'smethod”離差平方和法§10.3系統聚類法第三十四頁,共五十四頁,2022年,8月28日SPSS軟件實現對樣本進行聚類§10.3系統聚類法第三十五頁,共五十四頁,2022年,8月28日SPSS軟件實現對樣本進行主成分聚類主成分提取方法:累積方差貢獻率>85%(第八章分析結果)數據標準化方法:離差標準化(Zscore法)點與點間距離的計算:歐氏距離類與類間距離的計算:“Ward'smethod”離差平方和法§10.3系統聚類法第三十六頁,共五十四頁,2022年,8月28日SPSS軟件實現§10.3系統聚類法第三十七頁,共五十四頁,2022年,8月28日SPSS軟件實現對樣本進行因子聚類因子提取方法:主成分法、累積方差貢獻率>85%、方差最大正交因子旋轉數據標準化方法:離差標準化(Zscore法)點與點間距離的計算:歐氏距離類與類間距離的計算:“Ward'smethod”離差平方和法§10.3系統聚類法第三十八頁,共五十四頁,2022年,8月28日SPSS軟件實現對樣本進行因子聚類§10.3系統聚類法第三十九頁,共五十四頁,2022年,8月28日SPSS軟件實現§10.3系統聚類法CLU3-1是全變量聚類結果;CLU3-2是主成分聚類結果;CLU3-2是因子聚類結果第四十頁,共五十四頁,2022年,8月28日SPSS軟件實現§10.3系統聚類法Friedman檢驗表明:全變量聚類結果、主成分聚類結果、因子聚類結果存在顯著性差異Wilcoxom檢驗表明:全變量聚類結果與主成分聚類結果、因子聚類結果存在顯著性差異,但主成分與因子聚類結果無顯著性差異。第四十一頁,共五十四頁,2022年,8月28日

快速聚類分析的基本思想在快速聚類過程中,參與聚類分析的變量必須是數值型變量,分類數必須大于等于2,且小于等于觀測數。一般情況下,還指定一個標識變量來標明觀測的特征,以便于清楚地表明各觀測的所屬類。快速聚類過程始終遵照所有樣本空間的點與這幾個類中心的距離取最小值原則,進行反復的迭代計算,最終將各個樣本分配到各個類中心所在的類,迭代計算將停止。快速聚類只對樣本進行聚類。特別合適大樣本聚類。§10.4快速聚類法第四十二頁,共五十四頁,2022年,8月28日SPSS軟件實現§10.4快速聚類法第四十三頁,共五十四頁,2022年,8月28日SPSS軟件實現從源變量列表中選擇需要聚類分析的變量選擇聚類對象和聚類數系統默認的聚類數為2§10.4快速聚類法第四十四頁,共五十四頁,2022年,8月28日SPSS軟件實現從源變量列表中選擇需要聚類分析的變量選擇聚類方法Iterateandclassify:表示在迭代過程中不斷地更新聚類中心;Classifyonly:表示用初始聚類中心對觀測量進行聚類,聚類中心不變§10.4快速聚類法第四十五頁,共五十四頁,2022年,8月28日SPSS軟件實現從源變量列表中選擇需要聚類分析的變量選擇聚類方法Readinitialfrom:用來指定數據文件來源,表明所分析的作為凝聚點的觀測來自哪一個文件;Writefinalas:用來把聚類過程凝聚點的最終結果保存到指定的數據文件里。§10.4快速聚類法第四十六頁,共五十四頁,2022年,8月28日SPSS軟件實現Iterate迭代對話框MaximumIteration:輸入一個整數限定迭代步數,系統默認值為10;ConvergenceCriterion:輸入一個不超過1的正數作為判定迭代收斂的標準。缺省的收斂標準值為0.02,表示當兩次迭代計算的聚心之間距離的最大改變量小于初始聚心間最小距離的2%時終止迭代。§10.4快速聚類法第四十七頁,共五十四頁,2022年,8月28日SPSS軟件實現Iterate迭代對話框Clustermembership:觀測量的類別;Distancefromclustercenter:各觀測量與所屬類聚心之間的歐氏距離。§10.4快速聚類法第四十八頁,共五十四頁,2022年,8月28日SPSS軟件實現Options選擇對話框Initialclustercenters:輸出初始聚心表,列出每一類中變量均值的初始估計;ANOVAtable:輸出方差分析表,這里F檢驗簡單,并沒有詳細解釋檢驗的各種概率的含義。Cl

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論