主成分分析法的原理應用及計算步驟(2)_第1頁
主成分分析法的原理應用及計算步驟(2)_第2頁
主成分分析法的原理應用及計算步驟(2)_第3頁
已閱讀5頁,還剩7頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、概述在處理信息時,當兩個變量之間有一定相關關系時, 可以解釋為這兩個變量 反映此課題的信息有一定的重疊,例如,高校科研狀況評價中的立項課題數與項 目經費、經費支出等之間會存在較高的相關性;學生綜合評價研究中的專業基 礎課成績與專業課成績、獲獎學金次數等之間也會存在較高的相關性。而變量 之間信息的高度重疊和高度相關會給統計方法的應用帶來許多障礙。為了解決這些問題,最簡單和最直接的解決方案是削減變量的個數,但這 必然又會導致信息丟失和信息不完整等問題的產生。為此,人們希望探索一種 更為有效的解決方法,它既能大大減少參與數據建模的變量個數,同時也不會 造成信息的大量丟失。主成分分析正是這樣一種能

2、夠有效降低變量維數,并已 得到廣泛應用的分析方法。主成分分析以最少的信息丟失為前提,將眾多的原有變量綜合6210X較少幾 個綜合指標,通常綜合指標(主成分) 有以下幾個特點:主成分個數遠遠少于原有變量的個數原有變量綜合成少數幾個因子之后,因子將可以替代原有變量參與數據建 模,這將大大減少分析過程中的計算工作量。主成分能夠反映原有變量的絕大部分信息因子并不是原有變量的簡單取舍,而是原有變量重組后的結果,因此不會造 成原有變量信息的大量丟失,并能夠代表原有變量的絕大部分信息。主成分之間應該互不相關通過主成分分析得出的新的綜合指標 (主成分)之間互不相關,因子參與數 據建模能夠有效地解決變量信息重疊

3、、多重共線性等給分析應用帶來的諸多問 題。主成分具有命名解釋性總之,主成分分析法是研究如何以最少的信息丟失將眾多原有變量濃縮成 少數幾個因子,如何使因子具有一定的命名解釋性的多元統計分析方法。、基本原理主成分分析是數學上對數據降維的一種方法。 其基本思想是設法將原來眾多 的具有一定相關性的指標XI, X2,,XP (比如p個指標),重新組合成一組較 少個數的互不相關的綜合指標 Fm來代替原來指標。那么綜合指標應該如何去提 取,使其既能最大程度的反映原變量 Xp所代表的信息,又能保證新指標之間保 持相互無關(信息不重疊)。設F1表示原變量的第一個線性組合所形成的主成分指標,即Fl ailXl a

4、2lX2 . aplXp,由數學知識可知,每一個主成分所提取的信息量可用其方差來度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第 一主成分F1所含的信息量最大,因此在所有的線性組合中選取的 F1應該是XI, X2,,XP的所有線性組合中方差最大的,故稱 F1為第一主成分。如果第一主 成分不足以代表原來p個指標的信息,再考慮選取第二個主成分指標F2,為有效地反映原信息,F1已有的信息就不需要再出現在 F2中,即F2與F1要保持獨 立、不相關,用數學語言表達就是其協方差Cov(F1, F2)=0,所以F2是與F1不 相關的X1, X2,,XP的所有線性組合中方差最大的,故稱 F2

5、為第二主成分, 依此類推構造出的F1、F2、Fm為原變量指標X1、X2XP第一、第二、 第m個主成分。F1ai1X1*I2X2a1pX pF2*21X1*22 X 2a2 pX pFmam1X1am2 X 2'a Xmp p根據以上分析得知:Fi 與Fj互不相關,即Cov(Fi , Fj) = 0,并有Var(Fi)=ai '工ai,其 中工為X的協方差陣(2) F1 是XI, X2,,Xp的一切線性組合(系數滿足上述要求)中方差最 大的,即Fm是與F1, F2,Fm- 1都不相關的X1, X2,,XP的所有 線性組合中方差最大者。F1,F2,,F(m< p)為構造的新變

6、量指標,即原變量指標的第一、第二、 第m個主成分。由以上分析可見,主成分分析法的主要任務有兩點:(1) 確定各主成分Fi (i=1 , 2,,n)關于原變量Xj (j=1 , 2 ,,p)的表達式,即系數aij ( i=1 , 2,,m; j=1 , 2 ,,p)。從數學上可以證 明,原變量協方差矩陣的特征根是主成分的方差,所以前m個較大特征根就代表前m個較大的主成分方差值;原變量 協方差矩陣前m個較大的特征值i (這 樣選取才能保證主成分的方差依次最大)所對應的特征向量就是相應主成分Fi表達式的系數ai ,為了加以限制,系數ai啟用的是i對應的單位化的特征向量, 即有 ai 'ai

7、= 1。(2) 計算主成分載荷,主成分載荷是反映主成分Fi與原變量Xj之間的相互 關聯程度:P(Zk,N)- kaki(i, 1,2,L,p;k 1,2,L,m)三、主成分分析法的計算步驟主成分分析的具體步驟如下:(1) 計算協方差矩陣計算樣品數據的協方差矩陣:工=(Sj)p P,其中1 n _ _Sij(Xki Xi)(Xkj Xj) i , j = 1 , 2,,pn 1 k 1(2) 求出工的特征值i及相應的正交化單位特征向量ai工的前m個較大的特征值 12m>0就是前m個主成分對應的方差,對應的單位特征向量ai就是主成分Fi的關于原變量的系數,則原變量的第i個 主成分Fi為:Fi

8、 = ai'X主成分的方差(信息)貢獻率用來反映信息量的大小,匚為:(3)選擇主成分最終要選擇幾個主成分,即F1,F2,Fm中m的確定是通過方差(信息) 累計貢獻率G(m)來確定mpG(m) i / ki 1k 1當累積貢獻率大于85%寸,就認為能足夠反映原來變量的信息了,對應的 m 就是抽取的前m個主成分。(4)計算主成分載荷主成分載荷是反映主成分 Fi與原變量Xj之間的相互關聯程度,原來變量 Xj (j=1,2 ,,p )在諸主成分Fi (i=1,2,,n)上的荷載lij ( i=1, 2,,m j=1 ,2 ,,p)。:l(Zi,XJ"aji 1,2,L,m;j 1,2

9、,L,p)在SPSS軟件中主成分分析后的分析結果中,“成分矩陣”反應的就是主成分 載荷矩陣。(5)計算主成分得分計算樣品在m個主成分上的得分:Fia1i X1a2i X2apiX p i = 1,2,,m實際應用時,指標的量綱往往不同,所以在主成分計算之前應先消除量綱的 影響。消除數據的量綱有很多方法,常用方法是將原始數據標準化,即做如下數 據變換:XijXjxjSji 1,2,., n; j 1,2,., p其中:Xjxij,2Sj(Xiji 1Xj)根據數學公式知道,任何隨機變量對其作標準化變換后,其協方差與其相關系數是一回事,即標準化后的變量協方差矩陣就是其相關系數矩陣。另一方面,根據協

10、方差的公式可以推得標準化后的協方差就是原變量的相關系數, 亦即, 標準化后的變量的協方差矩陣就是原變量的相關系數矩陣 。也就是說,在標準 化前后變量的相關系數矩陣不變化。根據以上論述,為消除量綱的影響,將變量標準化后再計算其協方差矩陣, 就是直接計算原變量的相關系數矩陣,所以主成分分析的實際常用計算步驟是: 計算相關系數矩陣求出相關系數矩陣的特征值 i及相應的正交化單位特征向量ai選擇主成分計算主成分得分總結:原指標相關系數矩陣相應的特征值i為主成分方差的貢獻,方差的p貢獻率為i i/ i, i越大,說明相應的主成分反映綜合信息的能力越強,i 1可根據i的大小來提取主成分。每一個主成分的組合系

11、數(原變量在該主成分 上的載荷)ai就是相應特征值i所對應的單位特征向量。主成分分析法的計算步驟1、原始指標數據的 標準化采集p維隨機向量x =(石,瓦,,Xp)T)n 個樣品 x = (Xii,Xi2,.,Xip)T, i=1,2,n > p,構造樣本陣,對樣本陣元進行如下標準化變換:Zij = - 1,2,"眄 j -,p工命1 占 I其中!,得標準化陣Z。2、對標準化陣Z求相關系數矩陣R =悶1嚴卩=苴中篤=龍"= 122其中,.。3、解樣本相關矩陣R的特征方程|R 一入婦| =。得p個特征根,確定主成分辭半 0.8彳按確定m值,使信息的利用率達85%以上,對每

12、個入,j=l,2,.,m,解方程組 Rb = jb得單位特征向量"j。4、將標準化后的指標變量轉換為主成分=遷 % j = 1 mU1稱為第一主成分,U2稱為第二主成分,,Up稱為第P主成分。5、對m個主成分進行綜合評價對m個主成分進行加權求和,即得最終評價值,權數為每個主成分的方差貢獻率。一、主成分分析基本原理概念:主成分分析是把原來多個變量劃為少數幾個綜合指標的一種統計分析 方法。從數學角度來看,這是一種降維處理技術。思路:一個研究對象,往往是多要素的復雜系統。變量太多無疑會增加分析 問題的難度和復雜性,利用原變量之間的相關關系,用較少的新變量代替原來較 多的變量,并使這些少數變

13、量盡可能多的保留原來較多的變量所反應的信息,這樣問題就簡單化了。原理:假定有n個樣本,每個樣本共有p個變量,構成一個nxp階的數據 矩陣,XiiX12XipXX21X22X2pXniXn2Xnp記原變量指標為Xi , X2,,Xp,設它們降維處理后的綜合指標,即新變量為 z 1,Z2,Z3,zmw p),則ZiIiiXiIi2X2Ii p XpZ2I2iXiI22X2I2pXpZmlmi XiIm2X2Imp Xp系數I j的確定原則: Zi與乙(i工j ; i,j=1,2,m)相互無關; Zi是Xi, X2,Xp的一切線性組合中方差最大者,Z2是與乙不相關的X1,X2,, Xp的所有線性組合

14、中方差最大者; Z m是與Zi, Z2, , Z葉i都不相關的Xi, X2,Xp ,的所有線性組合中方差最大者。新變量指標Zi , Z2,z m分別稱為原變量指標Xi, X2,Xp的第i,第2, 第m主成分。從以上的分析可以看出,主成分分析的實質就是確定原來變量Xj (j=i ,2,p)在諸主成分乙(i=i , 2,,m)上的荷載I j ( i=i , 2,,m j=i , 2 ,,p)。從數學上可以證明,它們分別是相關矩陣m個較大的特征值所對應的特征向 量。二、主成分分析的計算步驟i、計算相關系數矩陣式為rj (i , j =i, 2,,p)為原變量Xi與Xj的相關系數,r ij =r ji

15、 ,其計算公(Xki Xi )(Xkj Xj)rjnn 2 2Xi) (Xkj Xj)k i2、計算特征值與特征向量解特征方程I I R 0,常用雅可比法(Jacobi )求出特征值,并使其按大小順序排列i 2P 0 ;p分別求出對應于特征值i的特征向量ei(i 1,2,L,p),要求e=1,即 e2 1 j i其中ej表示向量ei的第j個分量。3、計算主成分貢獻率及累計貢獻率貢獻率:(i 1,2,L,p)累計貢獻率:ikk 1pkk 1(i 1,2,L,p)般取累計貢獻率達 85%-958的特征值,仆2,L, m所對應的第1、第2、第m(mep)個主成分。4、計算主成分載荷lijP(Zi,X

16、j) /7q(i,j 1,2, L,p)5、各主成分得分、主成分分析法在SPSS中的操作Z11Z12Z1mZZ21Z22Z2mZn1Zn2Znm1、指標數據選取、收集與錄入(表1)表1沿海詢亍省市控濟數捐地悽GDP人均GDP農業IfltU 值T業怡加值第三產業用加值囲定鬣產披資基本建世投査葦善總額浴關出口 M抱方財政收入5458J1300014883.31376.22258.41315.9529.02258.4123.7399.7山東10550.011643B90u03502.53351.02288.71070.7313L921L4610.2河北6076.6仙7950.21406.72092.

17、61161.0$97.11915834$.$J0232022,62206883 9822.8960.0703.736).9941.4115.7171810636.01W711225353633967:22320.0II4L.3321J.S384.7643.75408.840627S6.2219622755.81970.277932035.2320 57W.0箭遼7670.0165706B0.023MJ2296.61180.62S77.5294,2$66.94682.01J510663.01047.11SSM)964.53S7.&1663.3173.7272.9廣東)1770.01503

18、0102394224.64793.63022.91275.55013.6184371202.0廣西2437.2SD62591.4367.0W5.7512.2352.71025.5154186.72、Analyze f Data Reduction f Factor Analysis ,彈出 Factor Analysis對話框:表2 Factor Analyze対話框與Descriptives卡對話框OKGDPX1:'飢均GDP推李農業增刖值血PdiltState ticsi*1亠'F“1 Cohbnijefl esetUnivarate descriptive砂工業増加a用$

19、黑三嚴業增血備【”V niia/solutionCancelCancel參固定資產投費兇E莎旌忝建設投更阱7Hft(pCorrelation卍 CoeffEienH$|r InverseS design V>sriabk1 Signiljcance fevds "Oeamneril廠 ReproducedArit?imdge廣 KMO and Barfeifs (es! of spheikiScores.Qplicns.Qescsiptwes. -R 鮎占曲n 3、把指標數據選入 Variables 框,Descriptives: Correlation Matrix框組中選中

20、Coefficients, 然后點擊 Continue,返回Factor Analysis 對話框,單 擊OK注意:SPSS在調用Factor Analyze過程進行分析時,SPSS會自動對原始數據進行標準化處理,所以在得到計算結果后的變量都是指經過標準化處理后的變量,但SPSS并不直接給出標準化后的數據,如需要得到標準化數據,則需調用Descriptives過程進行計算。表3 相關系數矩陣Comclatico NfetrixGDP人溝GDP農業工業握加值第三產業 増加直固定 吏產 投価投資禮會消售總額出口 總荊i地肚收入GDP1.000-0.094-00520.9670&790 92

21、J0.9220 9410.6370,826Aft GDP-0.0941.000-01710.1130.07402140.093-0.0430_0®10273-0.052 0.1711.000-0.132-0-0.09S-0.P60 0B-0 1250 08工業增加值0 9670.1B-01321.W00.9-850 9630.93909350-7050.S98第三產業塔M血0.9790.074-0 050098500009730 900.9620.7140 913固阮任產般慣0.9230.21409630.731.0000 9710.9370.7170-9140.9220W3-0.1

22、760939住頌0 9711 0000.S970.6240.$4S林瓷瀟供品零皆總潁0 941-0.04300130.9350.9620.9370.8971.0000.8360.929海梵出口蝕槪0 6370 081-0.1250.700.714071706240 8361-000Q.&82地方時熬收入0.8260273-0.0860.8980.9130.9340.S4S0.9290-8821.000Ccn2|Ma>ftMImhal Ei毀Mhi跆ExEraclidiL Sum of Sqwed gdu學CouipaiienrTotal% af VjirinnrfOmubin它

23、Total% cfVanajKClunudaci¥ %1217.22072.20572.20S7.22072_20572 205GDP049521.2351Z34CBJ 551123512-34684551丸均GDP(j 11 ?-0.82430 37.'8.76993.119-0.1090.67740.5475.46698 786工業mtnta0.9TB-0.00550.0850.85499.640弟三產業増加值0.9B60.07060.0210.21199.8500.9GJ-0.06S帛+崔設投徒0.947-O.OM70.-0120.11999.970-0.9770 17

24、6e0 0020.01899.988海冀出口總糕OEW 0.05190.0010.012100.000地占財吒收入Q 954-0.128100.0000.000100.000Extmchon. 陡Etuxl ftinripal Cbnnporient AnnJym 2 cxnpmrnEs ndmrbed4方琮甘胖主成莎提申分折我TcIhI Vknance Bxplantcd表5 劇紡囚予找荷矩陣CoEBpaiieikE Xfatrix?從表3可知GDP與工業增加值,第三產業增加值、固定資產投資、基本建設 投資、社會消費品零售總額、地方財政收入這幾個指標存在著極其顯著的關系 , 與海關出口總額存

25、在著顯著關系。可見許多變量之間直接的相關性比較強,證明 他們存在信息上的重疊。主成分個數提取原則為主成分對應的特征值大于 1的前m個主成分。特征值在 某種程度上可以被看成是表示主成分影響力度大小的指標,如果特征值小于1, 說明該主成分的解釋力度還不如直接引入一個原變量的平均解釋力度大,因此一般可以用特征值大于1作為納入標準。通過表4(方差分解主成分提取分析)可 知,提取2個主成分,即m=2,從表5(初始因子載荷矩陣)可知GDP 工業增加 值、第三產業增加值、固定資產投資、基本建設投資、社會消費品零售總額、海 關出口總額、地方財政收入在第一主成分上有較高載荷,說明第一主成分基本反映了這些指標的信

26、息;人均GDP和農業增加值指標在第二主成分上有較高載荷, 說明第二主成分基本反映了人均GDP和農業增加值兩個指標的信息。所以提取兩 個主成分是可以基本反映全部指標的信息,所以決定用兩個新變量來代替原來 的十個變量。但這兩個新變量的表達還不能從輸出窗口中直接得到,因為“ ComponentMatrix ”是指初始因子載荷矩陣,每一個載荷量表示主成分與對應 變量的相關系數。用表5(主成分載荷矩陣)中的數據除以主成分相對應的特征值開平方根便 得到兩個主成分中每個指標所對應的系數。將初始因子載荷矩陣中的兩列數據輸 入(可用復制粘貼的方法)到數據編輯窗口(為變量B1、B2),然后利用“ Transfor

27、m Compute Variable ” , 在Compute Variable 對話框中輸入“ A仁B1/SQR(7.22)”注:第二主成分SQ后的括號中填1.235,即可得到特征向 量A(見表6)。同理,可得到特征向量A。將得到的特征向量與標準化后的數據相 乘,然后就可以得出主成分表達式注:因本例只是為了說明如何在SPSS進行 主成分分析,故在此不對提取的主成分進行命名,有興趣的讀者可自行命名。F, =0.353ZX! +0.042ZK: -0.041ZX3 +0.364ZX4 + 0367ZX, P.366ZX, +0.352ZX. +0364啓 +0298ZX, + 0355ZXLoF

28、, =0A75ZX -0.741ZX: +0.609ZX, - 0.004Z + 0.063ZX< -O.OfilZXs -0.022ZX7 丸血 -0.046ZX, 015ZXlo表 6 Compute Variable 對話框I 11總:封| B1 齢E21 1上:亠気丄1E(jrclioihfc1 廠J-1 < - ='<|jAEfifnuneF< ' * 1t 2 3l 1ASYtle:? vSjfl.za'JT I AfSIMinjmexpnl 't- tAHHurraxpEiCDF.BEROUUJtqji;/t 11 I IJ_ . jl clee叱iT -«qel ai>aNe:.時5«代 £

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論