主成分分析、聚類分析比較_第1頁
主成分分析、聚類分析比較_第2頁
主成分分析、聚類分析比較_第3頁
主成分分析、聚類分析比較_第4頁
主成分分析、聚類分析比較_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

VIP免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

主成分分析、聚類分析比較主成分分析、聚類分析比較主成分分析、聚類分析比較主成分分析、聚類分析比較編制僅供參考審核批準(zhǔn)生效日期地址:電話:傳真:郵編:主成分分析、聚類分析的比較與應(yīng)用主成分分析、聚類分析的比較與應(yīng)用摘要:主成分分析、聚類分析是兩種比較有價(jià)值的多元統(tǒng)計(jì)方法,但同時(shí)也是在使用過程中容易誤用或混淆的幾種方法。本文從基本思想、數(shù)據(jù)的標(biāo)準(zhǔn)化、應(yīng)用上的優(yōu)缺點(diǎn)等方面,詳細(xì)地探討了兩者的異同,并且舉例說明了兩者在實(shí)際問題中的應(yīng)用。關(guān)鍵詞:spss、主成分分析、聚類分析一、基本概念主成分分析就是設(shè)法將原來眾多具有一定相關(guān)性(比如P個(gè)指標(biāo)),重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。綜合指標(biāo)即為主成分。所得出的少數(shù)幾個(gè)主成分,要盡可能多地保留原始變量的信息,且彼此不相關(guān)。因子分析是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數(shù)幾個(gè)因子變量,以及如何使因子變量具有較強(qiáng)的可解釋性的一種多元統(tǒng)計(jì)分析方法。聚類分析是依據(jù)實(shí)驗(yàn)數(shù)據(jù)本身所具有的定性或定量的特征來對大量的數(shù)據(jù)進(jìn)行分組歸類以了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),并且對每一個(gè)數(shù)據(jù)集進(jìn)行描述的過程。其主要依據(jù)是聚到同一個(gè)數(shù)據(jù)集中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。二、基本思想的異同(一)共同點(diǎn)主成分分析法和因子分析法都是用少數(shù)的幾個(gè)變量(因子)來綜合反映原始變量(因子)的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85%以上,所以即使用少數(shù)的幾個(gè)新變量,可信度也很高,也可以有效地解釋問題。并且新的變量彼此間互不相關(guān),消除了多重共線性。這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為x1,x2,...,x3,經(jīng)過坐標(biāo)變換,將原有的p個(gè)相關(guān)變量xi作線性變換,每個(gè)主成分都是由原有p個(gè)變量線性組合得到。在諸多主成分Zi中,Z1在方差中占的比重最大,說明它綜合原有變量的能力最強(qiáng),越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數(shù)幾個(gè)公共因子去解釋較多個(gè)要觀測變量中存在的復(fù)雜關(guān)系,它不是對原始變量的重新組合,而是對原始變量進(jìn)行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變量共同具有的少數(shù)幾個(gè)因子;特殊因子是每個(gè)原始變量獨(dú)自具有的因子。對新產(chǎn)生的主成分變量及因子變量計(jì)算其得分,就可以將主成分得分或因子得分代替原始變量進(jìn)行進(jìn)一步的分析,因?yàn)橹鞒煞肿兞考耙蜃幼兞勘仍甲兞可倭嗽S多,所以起到了降維的作用,為我們處理數(shù)據(jù)降低了難度。聚類分析的基本思想是:采用多變量的統(tǒng)計(jì)值,定量地確定相互之間的親疏關(guān)系,考慮對象多因素的聯(lián)系和主導(dǎo)作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實(shí)際并能反映事物的內(nèi)在必然聯(lián)系。也就是說,聚類分析是把研究對象視作多維空間中的許多點(diǎn),并合理地分成若干類,因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內(nèi)在組合關(guān)系。聚類分析是通過一個(gè)大的對稱矩陣來探索相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,是多元統(tǒng)計(jì)分析方法,分析的結(jié)果為群集。對向量聚類后,我們對數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。(二)不同之處主成分分析是研究如何通過少數(shù)幾個(gè)主成分來解釋多變量的方差一協(xié)方差結(jié)構(gòu)的分析方法,也就是求出少數(shù)幾個(gè)主成分(變量),使它們盡可能多地保留原始變量的信息,且彼此不相關(guān)。它是一種數(shù)學(xué)變換方法,即把給定的一組變量通過線性變換,轉(zhuǎn)換為一組不相關(guān)的變量(兩兩相關(guān)系數(shù)為0,或樣本向量彼此相互垂直的隨機(jī)變量),在這種變換中,保持變量的總方差(方差之和)不變,同時(shí)具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。依次類推。若共有p個(gè)變量,實(shí)際應(yīng)用中一般不是找p個(gè)主成分,而是找出m(m<p)個(gè)主成分就夠了,只要這m個(gè)主成分能反映原來所有變量的絕大部分的方差。主成分分析可以作為因子分析的一種方法出現(xiàn)。因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據(jù)相關(guān)性大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同的組的變量相關(guān)性較低,每組變量代表一個(gè)基本結(jié)構(gòu),這個(gè)基本結(jié)構(gòu)稱為公共因子。對于所研究的問題就可試圖用最少個(gè)數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變量是對每個(gè)原始變量進(jìn)行內(nèi)部剖析。因子分析不是對原始變量的重新組合,而是對原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個(gè)問題中可直接測量的具有一定相關(guān)性的諸指標(biāo),如何受少數(shù)幾個(gè)在專業(yè)中有意義、又不可直接測量到、且相對獨(dú)立的因子支配的規(guī)律,從而可用各指標(biāo)的測定來間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。聚類分析算法是給定m維空間R中的n個(gè)向量,把每個(gè)向量歸屬到k個(gè)聚類中的某一個(gè),使得每一個(gè)向量與其聚類中心的距離最小。聚類可以理解為:類內(nèi)的相關(guān)性盡量大,類間相關(guān)性盡量小。聚類問題作為一種無指導(dǎo)的學(xué)習(xí)問題,目的在于通過把原來的對象集合分成相似的組或簇,來獲得某種內(nèi)在的數(shù)據(jù)規(guī)律。從三類分析的基本思想可以看出,聚類分析中并沒于產(chǎn)生新變量,但是主成分分析和因子分析都產(chǎn)生了新變量。三、數(shù)據(jù)標(biāo)準(zhǔn)化的比較主成分分析中為了消除量綱和數(shù)量級,通常需要將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將其轉(zhuǎn)化為均值為0方差為1的無量綱數(shù)據(jù)。而因子分析在這方面要求不是太高,因?yàn)樵谝蜃臃治鲋锌梢酝ㄟ^主因子法、加權(quán)最小二乘法、不加權(quán)最小二乘法、重心法等很多解法來求因子變量,并且因子變量是每一個(gè)變量的內(nèi)部影響變量,它的求解與原始變量是否同量綱關(guān)系并不太大,當(dāng)然在采用主成分法求因子變量時(shí),仍需標(biāo)準(zhǔn)化。不過在實(shí)際應(yīng)用的過程中,為了盡量避免量綱或數(shù)量級的影響,建議在使用因子分析前還是要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。在構(gòu)造因子變量時(shí)采用的是主成分分析方法,主要將指標(biāo)值先進(jìn)行標(biāo)準(zhǔn)化處理得到協(xié)方差矩陣,即相關(guān)矩陣和對應(yīng)的特征值與特征向量,然后構(gòu)造綜合評價(jià)函數(shù)進(jìn)行評價(jià)。聚類分析中如果參與聚類的變量的量綱不同會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果。因此在聚類過程進(jìn)行之前必須對變量值進(jìn)行標(biāo)準(zhǔn)化,即消除量綱的影響。不同方法進(jìn)行標(biāo)準(zhǔn)化,會(huì)導(dǎo)致不同的聚類結(jié)果要注意變量的分布。如果是正態(tài)分布應(yīng)該采用z分?jǐn)?shù)法。四、應(yīng)用中的優(yōu)缺點(diǎn)比較(一)主成分分析1、優(yōu)點(diǎn)首先它利用降維技術(shù)用少數(shù)幾個(gè)綜合變量來代替原始多個(gè)變量,這些綜合變量集中了原始變量的大部分信息。其次它通過計(jì)算綜合主成分函數(shù)得分,對客觀經(jīng)濟(jì)現(xiàn)象進(jìn)行科學(xué)評價(jià)。再次它在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力綜合評價(jià)。2、缺點(diǎn)當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時(shí),綜合評價(jià)函數(shù)意義就不明確。命名清晰性低。(二)聚類分析1、優(yōu)點(diǎn)聚類分析模型的優(yōu)點(diǎn)就是直觀,結(jié)論形式簡明。2、缺點(diǎn)在樣本量較大時(shí),要獲得聚類結(jié)論有一定困難。由于相似系數(shù)是根據(jù)被試的反映來建立反映被試間內(nèi)在聯(lián)系的指標(biāo),而實(shí)踐中有時(shí)盡管從被試反映所得出的數(shù)據(jù)中發(fā)現(xiàn)他們之間有緊密的關(guān)系,但事物之間卻無任何內(nèi)在聯(lián)系,此時(shí),如果根據(jù)距離或相似系數(shù)得出聚類分析的結(jié)果,顯然是不適當(dāng)?shù)模牵垲惙治瞿P捅旧韰s無法識(shí)別這類錯(cuò)誤。五.案例分析:下表是關(guān)于全國31個(gè)省市的8項(xiàng)經(jīng)濟(jì)指標(biāo),以此為例,進(jìn)行主成分分析。省份國內(nèi)生產(chǎn)居民消費(fèi)固定資產(chǎn)職工工資貨物周轉(zhuǎn)消費(fèi)價(jià)格商品零售工業(yè)產(chǎn)值北京25058144天津27206501河北12584839山西12504721內(nèi)蒙13874134遼寧23974911114吉林18724430黑龍江23344145上海53439279113江蘇19265943浙江22496619安徽12544744609福建23205857江西11824211山東15275145河南10344344湖北15274685849120湖東26998250114廣南18145340四川353412614645117貴州9424475云南12613345149西藏11107382陜西12084396119117甘肅10075493507青夏13555079新過輸入數(shù)據(jù),設(shè)置各項(xiàng),Spss最終輸出結(jié)果如下:描述統(tǒng)計(jì)量均值標(biāo)準(zhǔn)差分析N國內(nèi)生產(chǎn)30居民消費(fèi)30固定資產(chǎn)30職工工資30貨物周轉(zhuǎn)30消費(fèi)價(jià)格30商品零售30工業(yè)產(chǎn)值30相關(guān)矩陣a國內(nèi)生產(chǎn)居民消費(fèi)固定資產(chǎn)職工工資貨物周轉(zhuǎn)消費(fèi)價(jià)格相關(guān)國內(nèi)生產(chǎn).267.951.191.617居民消費(fèi).267.426.718固定資產(chǎn).951.426.400.431職工工資.191.718.400貨物周轉(zhuǎn).617.431消費(fèi)價(jià)格商品零售.022.763工業(yè)產(chǎn)值.874.363.792.104.659a.行列式=.000相關(guān)矩陣a商品零售工業(yè)產(chǎn)值相關(guān)國內(nèi)生產(chǎn).874居民消費(fèi).363固定資產(chǎn).792職工工資.104貨物周轉(zhuǎn).022.659消費(fèi)價(jià)格.763商品零售工業(yè)產(chǎn)值a.行列式=.000公因子方差初始提取國內(nèi)生產(chǎn).945居民消費(fèi).800固定資產(chǎn).902職工工資.875貨物周轉(zhuǎn).857消費(fèi)價(jià)格.957商品零售.929工業(yè)產(chǎn)值.903提取方法:主成份分析。解釋的總方差成份初始特征值提取平方和載入合計(jì)方差的%累積%合計(jì)方差的%累積%1234.4025.2136.1387.065.8188.015.183提取方法:主成份分析。成份矩陣a成份123國內(nèi)生產(chǎn).885.384.121居民消費(fèi).607.271固定資產(chǎn).912.161.212職工工資.466.368貨物周轉(zhuǎn).486.738消費(fèi)價(jià)格.252.797商品零售.594.438工業(yè)產(chǎn)值.823.427.211提取方法:主成份。a.已提取了3個(gè)成份。從“解釋的總方差”一表中可以得出相關(guān)系數(shù)矩陣的特征值為λ1=,λ2=,λ3=,λ4=,5=,λ6=,λ7=,λ8=前三個(gè)成分的特征值都大于1,并且累計(jì)貢獻(xiàn)值達(dá)到了%,所以選取了前三個(gè)因素作為主成分。將“成分矩陣”表中沒一列值分別除以特征值的開方,就得出了每一個(gè)特征值對應(yīng)的特征向量,由此可以得出第一,第二,第三主成分表達(dá)式(令各因素為X1,X2……X8)F1=*X1+*X2+*X3+*X4+***X7+*X8F2=**X2+**X4+*X5+*X6+*X7+*X8F3=*X1+*X2+*X3+**X5+*X6+*X7+*X8根據(jù)三個(gè)主成分表達(dá)式,通過SPSS的轉(zhuǎn)換功能,就可以得出成分結(jié)果:省份F1F2F3北京天津河北山西9721內(nèi)蒙遼寧吉林4506黑龍江上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西海南四川貴州云南西藏陜西甘肅青海寧夏新疆綜合上述可知,各省份的8個(gè)經(jīng)濟(jì)指標(biāo)中國內(nèi)資產(chǎn),居民消費(fèi),固定工資可以作為衡量經(jīng)濟(jì)的主要成分。聚類分析根據(jù)分類對象的不同,可分為樣本聚類和變量聚類。樣本聚類又稱Q型聚類,對樣本進(jìn)行分類。變量聚類又稱R型聚類,對變量進(jìn)行分類。Q型聚類實(shí)例分析例:一組有關(guān)12盎司啤酒成分和價(jià)格的數(shù)據(jù),變量包括beername(啤酒名稱)、calorie(熱量卡路里)、sodium(納含量)、alcohol(酒精含量)、cost(價(jià)格)。要求根據(jù)12盎司啤酒的各成分含量及12盎司啤酒的價(jià)格對20種啤酒進(jìn)行分類。分析(Analysis)→分類(Classify)→分層聚類(HierarchicalCluster)Q型聚類選個(gè)案,R型聚類選變量。相似性矩陣:表格形式給出任意兩個(gè)樣本的相關(guān)指數(shù)。方法:聚類方法:組間聚類,組內(nèi)聚類,最近鄰元素法,最遠(yuǎn)鄰元素法度量標(biāo)準(zhǔn):平方Euclidean距離,Euclidean距離,Pearson相關(guān)性。標(biāo)準(zhǔn)化:如果參與聚類的變量的量綱不同會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果。因此在聚類過程進(jìn)行之前必須對變量進(jìn)行標(biāo)準(zhǔn)化。常用的是Z分?jǐn)?shù)法和全距從0-1。這是常用的幾種方法,具體問題根據(jù)具體結(jié)果選擇方法。R型聚類實(shí)例分析有10個(gè)測檢項(xiàng)目,分別用x1-x10表示。有50個(gè)學(xué)生參加測試,通過50個(gè)學(xué)生的數(shù)據(jù),把這10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論