SPSS進行主成分分析_第1頁
SPSS進行主成分分析_第2頁
SPSS進行主成分分析_第3頁
SPSS進行主成分分析_第4頁
SPSS進行主成分分析_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

實驗七、利用SPSS進行主成分分析【例子】以全國31個省市的8項經濟指標為例,進行主成分分析。第一步:錄入或調入數據(圖1)。背份I國內生產居民涓夷1固定資產職二工資貨物周轉I消費忻格I商品零售二業產悄1北京139^1.092^05.JOG19.31014400372.SOP7.3C112.CO043.432大津92C/12720.DO345.436501CO3^2.E0LE.2C110.GO582.513河北284C-.521268.DO704.87^3JCO2023.:aPE.2C116.8012B4.S641d1092.4E1250.DO230.33^721CO717.20PE.9C115.60G37.255032.381337.DOJbU.JJQ34UJrtl.^UIV.5L116.00419.396遼寧UdUr.JU387.99SU」13/1./Uri=/L1I^.UU1840.5671IJL.JL320.45心」LU比上£Urt.JL1|£.IU心.4「y刖丄亠2J3^.JU4如心丄屁UJrt/L1IGU1240.379上活2462.675J43.JUUJU.4JIL/JUJ2Q7.40rt.,'L113.UU1642.9610江蘇5155.25UJb.JU1434.95694JUU山上上Ll115.801H.3U11126.6411浙江2249.JU1006.39GG19.00■-M7-U116.60113.oUyib.sy12安機2003.69IJb/.JU■VI」」4LUU」90S.30r^i.yi1IJ7Uyji.ii132160.522320.DO553.975357W609.3D115.2D114.40433.6714江西iJUt.-l11H2.JU2S2.S41LU■<Tl./Uit.yi116.yu6/I.J-115止擊5002.3^11527.DO1229.55S145W1195.60I17.6D114.2022J7.S915河崗3002.7^11034.DO570.354344W1574.^0I16.6D114.901^7.3217jjyl.-LIbJ/.川571,6B■<tablu丄uI2L.UL1Ib.bUI22U./218湖南2195.701408.DO422.614797Winri.aoI19.0D115.5084S.SS13廣韋5381.722599.DO1539.838233W655.50\1A.W111.601336.3520廣西1bUt/tIdU.JU6'IUbLU666丄Li118.401lb.1U分13213GJ.171814.DO198.356340JZO232.10113.50111.3064.3322匹川353J.001261.00822.544G45JZO902.30118.50117.001431.3123貴州63C.07912.30150.31£<75CO3CI.IOI2I.1C117.2032172241200.631261.DO334.0D6149JZO310.JO121.30118.10716.652556.9a1110.DO17.877382JZO4.20117.30114.905.5726innrn:l?riRin3Q027丄:qmm可nunI1Cnr117nnBQ09827r|.需653.351007.00114.81E』33[n5D7.0D119.8D116.604687928165.311445.0047.7B6753m61.60118.00116.301Q6.8029寧亙169751365m21刖5079m■;1FnI'7T115.30114.403083J.571469.0037B.955348m339.00119.7D11B.7D428.76圖1原始數據(未經標準化)第二步:打開“因子分析”對話框。沿著主菜單的“Analyze—DataReduction^Factor”的路徑(圖2)打開因子分析選項框(圖3)。旨全國3D牛睿帀區經:Sf發展的8項指標-5P55DataEditors\里J幻|c|聞6s\里J幻|c|聞6省份國內生產1北京1394.E2天津920.13河北2849.EI4山西1092.J5內蒙832.E6遼寧2793<FileEditViewDataTransformAnalyzeGraphsUtilitiesWindowHelpReports 卜DescriptiveStatistics卜CompareMeans卜GeneralLinearModel卜Correlate 卜Regression 卜匚lassiFi: 卜DataReduction5cale 卜NonparametricTemIim卜MultipleResponse 卜匚職工工資1B144.0066501.00F日匚thin : ■CT.uu34134.00'94911.00圖2打開因子分析對話框的路徑IFactorAnalysis2d產費產資轉格售值生消資工周價零產份內民定工物費品業習國居固職賃消商T型參步莎莎穢戰步莎Variables:Descriptives... SelectionVariable:

ra IFactorAnalysis2d產費產資轉格售值生消資工周價零產份內民定工物費品業習國居固職賃消商T型參步莎莎穢戰步莎Variables:Descriptives... SelectionVariable:

ra Value...IExtraction...Rotation...Scores...Options...圖3因子分析選項框第三步:選項設置。首先,在源變量框中選中需要進行分析的變量,點擊右邊的箭頭符號,將需要的變量調入變量(Variables)欄中(圖3)。在本例中,全部8個變量都要用上,故全部調入(圖4)。因無特殊需要,故不必理會“Va^e”欄。下面逐項設置。2S1Variables:SelectionVariable:Value...I產費產資轉格售值生消資工周價零產內民定工物費品業國居固職貨消商〒2S1Variables:SelectionVariable:Value...I產費產資轉格售值生消資工周價零產內民定工物費品業國居固職貨消商〒Extraction...Rotation... Scores... Options...Extraction...Rotation... Scores... Options...圖4將變量移到變量欄以后設置Descriptives描述選項。單擊Descriptives按鈕(圖4),彈出Descriptives對話框(圖5)。

FactorAnalysis:DescriptivesStaticcs1^UnivariatedescriptivesFinitialsolution2SJCorrelationMatrix—2SJ皆Coefficients廠Significancelevels磧DeterminantI-InverseI-Inverse廠ReproducedI-Anti-image圖5描述選項框在Statistics統計欄中選中Univariatedescriptives復選項,則輸出結果中將會給出原始數據的抽樣均值、方差和樣本數目(這一欄結果可供檢驗參考);選中Initialsolution復選項,則會給出主成分載荷的公因子方差(這一欄數據分析時有用)。在CorrelationMatrix欄中,選中Coefficients復選項,則會給出原始變量的相關系數矩陣(分析時可參考);選中Determinant復選項,則會給出相關系數矩陣的行列式,如果希望在Excel中對某些計算過程進行了解,可選此項,否則用途不大。其它復選項一般不用,但在特殊情況下可以用到(本例不選)。設置完成以后,單擊Continue按鈕完成設置(圖5)。設置Extraction選項。打開Extraction對話框(圖6)。因子提取方法主要有7種,在Method欄中可以看到,系統默認的提取方法是主成分(PrincipalComponents),因此對此欄不作變動,就是認可了主成分分析方法。在Analyze欄中,選中Correlationmatrix復選項,則因子分析基于數據的相關系數矩陣進行分析;如果選中Covariancematrix復選項,則因子分析基于數據的協方差矩陣進行分析。對于主成分分析而言,由于數據標準化了,這兩個結果沒有分別,因此任選其一即可。在Display欄中,選中Unrotatedfactorsolution(非旋轉因子解)復選項,則在分析結果中給出未經旋轉的因子提取結果。對于主成分分析而言,這一項選擇與否都一樣;對于旋轉因子分析,選擇此項,可將旋轉前后的結果同時給出,以便對比。選中ScreePlot(“山麓”圖),則在分析結果中給出特征根按大小分布的折線圖(形如山麓截面,故得名),以便我們直觀地判定因子的提取數量是否準確。在Extract欄中,有兩種方法可以決定提取主成分(因子)的數目。一是根據特征根(Eigenvalues)的數值,系統默認的是九=1。我們知道,在主成分分析中,主成分得c分的方差就是對應的特征根數值。如果默認九=1,則所有方差大于等于1的主成分將被c保留,其余舍棄。如果覺得最后選取的主成分數量不足,可以將九值降低,例如取九=0.9;如果認為最后的提取的主成分數量偏多,則可以提高九值,例如取九=1.1。c c c主成分數目是否合適,要在進行一輪分析以后才能肯定。因此,特征根數值的設定,要在反復試驗以后才能決定。一般而言,在初次分析時,最好降低特征根的臨界值(如取

九二0.8),這樣提取的主成分將會偏多,根據初次分析的結果,在第二輪分析過程中c可以調整特征根的大小。第二種方法是直接指定主成分的數目即因子數目,這要選中Numberoffactors復選項。主成分的數目選多少合適?開始我們并不十分清楚。因此,首次不妨將數值設大一些,但不能超過變量數目。本例有8個變量,因此,最大的主成分提取數目為8,不得超過此數。在我們第一輪分析中,采用系統默認的方法提取主成分。圖6提取對話框需要注意的是:主成分計算是利用迭代(Iterations)方法,系統默認的迭代次數是25次。但是,當數據量較大時,25次迭代是不夠的,需要改為50次、100次乃至更多。對于本例而言,變量較少,25次迭代足夠,故無需改動。設置完成以后,單擊Continue按鈕完成設置(圖6)。設置Scores設置。選中Saveasvariables欄,則分析結果中給出標準化的主成分得分(在數據表的后面)。至于方法復選項,對主成分分析而言,三種方法沒有分別,采用系統默認的“回歸”(Regression)法即可。圖7因子得分對話框選中Displayfactorscorecoefficientmatrix,則在分析結果中給出因子得分系數矩陣及其相關矩陣。設置完成以后,單擊Continue按鈕完成設置(圖7)。其它。對于主成分分析而言,旋轉項(Rotation)可以不必設置;對于數據沒有缺失的情況下,Option項可以不必理會。全部設置完成以后,點擊0K確定,SPSS很快給出計算結果(圖8)。FactorAnalysisDKcrlptiwStatisticsMeanStd.Deviaticn月rial陽5N主K三〒L921.093K74.aC6D330居民消費05.9990GL6419930511.93634D2.aBS^B30P1'■/'5457.6331310.218D530edfi.MCO302.02531II商品零害.9067L.affiDS30丄泊E62P3EO504.5872630CorrdatiotnMatrix刃丄7嚴同嚴產職TT占商品頁音一產乍Zu-.LUj- 國內生產1.000.267?此1,191-.273-.E&4.374,古土汨非.267i.mo.斗26.710-.151-.235.3E3固竝產.951.4261.DC0.4D0.431-.230.792開丁T許.191.710■4CDL.ODO-.356-.135-.53?■1D4覽物周轉.617-.151■陽1-.3561.000-.253■02Z.&59亠幵li壞-.273-.235?.2圧1-.195-.2531.1X0.763-.1右商品零售-.264-.393-.539.022.763l.nm-.152嚴?直.874.363.792.104.659-.125-192lJliDHa.DetEfmria-it二1A33E<I4圖8主成分分析的結果第四步,結果解讀。在因子分析結果(0utput)中,首先給出的DescriptiveStatistics,第一列Mean對應的變量的算術平均值,計算公式為X=1Hxjnij

i=1第二列Std.Deviation對應的是樣本標準差,計算公式為b=工(X-X)2]1/2jn—1 ij ji=1第三列AnalysisN對應是樣本數目。這一組數據在分析過程中可作參考。

DescriptiveStatisticsMeanStd.DeviationAnalysisN國內生產1921.0931474.8060330居民消費1745.933861.6419330固定資產511.5083402.8854830職工工資5457.6331310.2180530貨物周轉666.1400459.9669930消費價格117.28672.0253130商品零售114.90671.8980830工業產值862.9980584.5872630接下來是CorreiationMatrix(相關系數矩陣),一般而言,相關系數高的變量,大多會進入同一個主成分,但不盡然,除了相關系數外,決定變量在主成分中分布地位的因素還有數據的結構。相關系數矩陣對主成分分析具有參考價值,畢竟主成分分析是從計算相關系數矩陣的特征根開始的。相關系數陣下面的Determinant=l.133E—0.4是相關矩陣的行列式值,根據關系式det@I-R)二0可知,det(〃)=det(R),從而Determinant=1.133E-0.4=2*2*2*2*2*2*2*2。這一點在后面1 2 3 4 5 6 7 8將會得到驗證。CoirelationMatrix國內生產居民消費固定資產職工工資貨物周轉消費價格商品零售工業產值國內生產1.000.267.951.191.617-.273-.264.874居民消費.2671.000.426.718-.151-.235-.593.363固定資產.951.4261.000.400.431-.280-.359.792職工工資.191.718.4001.000-.356-.135-.539.104貨物周轉.617-.151.431-.3561.000-.253.022.659消費價格-.273-.235-.280-.135-.2531.000.763-.125商品零售-.264-.593-.359-.539.022.7631.000-.192工業產值.874.363.792.104.659-.125-.1921.000a.Determinant=1.133E-04在Communalities中,給出了因子載荷陣的初始主成分方差(Initial)和提取主成分方差(Extraction),后面將會看到它們的含義。CommunalitiesInitialExtraction國內生產1.000.945居民消費1.000.800固定資產1.000.902職工工資1.000.875貨物周轉1.000.857消費價格1.000.957商品零售1.000.929工業產值1.000.903ExtractionMethod:PrincipalComponentAnalysis.

在TotalVarianceExplained(全部解釋方差)表的InitialEigenvalues(初始特征根)中,給出了按順序排列的主成分得分的方差(Tota1),在數值上等于相關系數矩陣的各個特征根久,因此可以直接根據特征根計算每一個主成分的方差百分比(%ofVariance)。由于全部特征根的總和等于變量數目,即有m=E2=8,故第一個特征根的方差百分比為人/m=3.755/8=46.939,第二個特征根的百分比為m=2.197/8=27.459,……,其余依此類推。然后可以算出方差累計值(Cumulative%)。在ExtractionSumsofSquaredLoadings,給出了從左邊欄目中提取的三個主成分及有關參數,提取的原則是滿足2>1,這一點我們在圖6所示的對話框中進行了限定。eulavnegiExtractionMethod:PrincipalComponentAnalysis.eulavnegiExtractionMethod:PrincipalComponentAnalysis.TotalVArianceExplainedComponentInitialEigenvaluesExtractionSumsofSquaredLoadinqsTotal%ofVarianeeCumulative%Total%ofVarianeeCumulative%13.75546.93946.9393.75546.93946.93922.19727.45974.3982.19727.45974.39831.21515.18689.5841.21515.18689.5844.4025.03194.6155.2132.66097.2756.1381.72498.99976.5E-02.81899.81781.5E-02.183100.000主成分的數目可以根據相關系數矩陣的特征根來判定,如前所說,相關系數矩陣的特征根剛好等于主成分的方差,而方差是變量數據蘊涵信息的重要判據之一。根據I值決定主成分數目的準則有三:i只取;>1的特征根對應的主成分從TotalVarianceExplained表中可見,第一、第二和第三個主成分對應的久值都大于1,這意味著這三個主成分得分的方差都大于1。本例正是根據這條準則提取主成分的。ii累計百分比達到80%~85%以上的2值對應的主成分在TotalVarianceExplained表可以看出,前三個主成分對應的久值累計百分比達到89.584%,這暗示只要選取三個主成分,信息量就夠了。iii根據特征根變化的突變點決定主成分的數量從特征根分布的折線圖(ScreePlot)上可以看到,第4個久值是一個明顯的折點,這暗示選取的主成分數目應有PW4(圖8)。那么,究竟是3個還是4個呢?根據前面兩條準則,選3個大致合適(但小有問題)。在ComponentMatrix(成分矩陣)中,給出了主成分載荷矩陣,每一列載荷值都顯示了各個變量與有關主成分的相關系數。以第一列為例,0.885實際上是國內生產總值(GDP)與第一個主成分的相關系數。將標準化的GDP數據與第一主成分得分進行回歸,決定系數R2=0.783(圖9),容易算出R=0.885,這正是GDP在第一個主成分上的載荷。ComponentMatrbaComponent123國內生產.885.384.121居民消費.607-.598.271固定資產.912.161.212職工工資.466-.722.368貨物周轉.486.738-.275消費價格-.509.252.797商品零售-.620.594.438工業產值.823.427.211ExtractionMethod:PrincipalComponentAnalysis.a.3componentsextracted.下面將主成分載荷矩陣拷貝到Excel上面作進一步的處理:計算公因子方差和方差貢獻。首先求行平方和,例如,第一行的平方和為h12=0.88492+0.38362+0.12092=0.9449這是公因子方差。然后求列平方和,例如,第一列的平方和為S]2=0.88492+0.60672+???+0.82272=3.7551這便是方差貢獻(圖10)。在Excel中有一個計算平方和的命令sumsq,可以方便地算出一組數據的平方和。顯然,列平方和即方差貢獻。事實上,有如下關系成立:相關系數矩陣的特征根=方差貢獻=主成分得分的方差至于行平方和,顯然與前面Communalities表中的Extraction列對應的數據一樣。如果我們將8個主成分全部提取,貝性成分載荷的行平方和都等于1(圖11),即有h=1,Sj

=卯到此可以明白:在Communalities中,Initia1對應的是初始公因子方差,實際上是全部主成分的公因子方差;Extraction對應的是提取的主成分的公因子方差,我們提取了3個主成分,故計算公因子方差時只考慮3個主成分。值總產生內國-4第一主成分O543210123---值總產生內國-4第一主成分O543210123---圖9國內生產總值(GDP)的與第一主成分的相關關系(標準化數據)ACDE5第主成分第一主成分第二主成分公因子方差6國內生產0.SS49000.3S36190.12088&0.9448247居艮消費0.606719-0.5981770.2713130.7995348固定資產0.9116S70.1611060.211^970.902071g職工工資0.466222-0.7224100.3&7^380.87461710賀物周轉0.4050310.730275-0.2752520.85684511消費價格-0.50S5630.2519090.79&&3S0.95671812商品零售-0.6195090.5943750.4375550.92862713工業產值0.S227290.4267370.210^700.90349614方差責就3.7551332.196T041.2148957.166T3315特征根3.7551332.1967041.214S957.166733圖10主成分方差與方差貢獻

ComponentMatriWComponent12345678國內生產.885.384.121-.203-6.87E-021.143E-022.420E-029.192E-02居民消費.607-.598.271.409-7.61E-02.1575.525E-021.317E-02固定資產.912.161.212-.270-7.71E-028.271E-028.113E-02-7.36E-02職工工資.466-.722.368-.164.304-1.64E-02-7.62E-023.949E-03貨物周轉.486.738-.275.212.3052.254E-026.855E-02-6.02E-03消費價格-.509.252.797.0722.716E-02-.161.1072.435E-03商品零售-.620.594.438-.0273.531E-02.247-9.23E-021.634E-03工業產值.823.427.211.209-9.38E-02-.137-.157-2.30E-02ExtractionMethod:PrincipalComponentAnalysis.a.8componentsextracted.AECDEFGHIJ112345678公因手方差2國內生產U.BB490.3B350.1209-i.-U.UtHY0.0114U.i.uyiy13居商肖費0.G0G7-0.5DQ0.2712C.4005-0.07G10.15CQ0.0552C.013214固定瓷立0.9117n.:ahA.217-0.2705-0.0771門一件70.0011-A.H7415職工工資0.4662-0.722(i.3679-C.16350.30421-0.016-0.075C.003916貨物周轉0.4B580.73B3-0.27E0.21184:0.305020.02250.0685-0.00617涓費價格-1).5090.2519(i.736£0.071760.02716-0.1£10.1071C.002418-0.620.59440.4376-C.02670.03531Q.24:tS-Q.OSZ0.001619工業產值0.S2270.<2670.2110.20SSS-0.0C-3S-0.1E7-0.157-0.0231103.75512.19671.21490.402440,21280,1380.06540.0146f?11特征棍3.75512.19671.21490.402440.21280.1380.0654C.01461.133E-D4圖11全部主成分的公因子方差和方差貢獻提取主成分的原則上要求公因子方差的各個數值盡可能接近,亦即要求它們的方差極小,當公因子方差完全相等時,它們的方差為0,這就達到完美狀態。實際應用中,只要公因子方差數值彼此接近(不相差太遠)就行了。從上面給出的結果可以看出:提取3個主成分的時候,居民消費的公因子方差偏小,這暗示提取3個主成分,居民消費方面的信息可能有較多的損失。至于方差貢獻,反映對應主成分的重要程度,這一點從方差的統計學意義可以得到理解。在圖11中,將最后一行的特征根全部乘到一起,得0.0001133,這正是相關系數矩陣的行列式數值(在Exce1中,求一組數據的乘積之和的命令是product)。最后說明ComponentScoreCoefficientMatrix(成分得分系數矩陣)和ComponentScoreCovarianceMatrixC成分得分協方差矩陣),前者是主成分得分系數,后者是主成分得分的協方差即相關系數。從ComponentScoreCovarianceMatrix可以看出,標準化主成分得分之間的協方差即相關系數為0(jHk)或1(j=k),這意味著主成分之間彼此正交即垂直。初學者常將ComponentScoreCoefficientMatrix表中的數據當成主成分得分或因子得分,這是誤會。成分得分系數矩陣的數值是主成分載荷除以相應的特征根得到的結果。在ComponentMatrix表中,將第一列數據分別除以2]=3.755,第二列數值分別除以久2=2.197,…,立即得到ComponentScoreCoefficient;反過來,如果將ComponentScoreCoefficientMatrix表中的各列數據分別乘以人=3.755,22=2.197,…,則可將其還原為主成分載荷即ComponentMatrix中

的數據。ComponentScoreCoefficientMatrixComponent123國內生產.236.175.100居民消費.162-.272.223固定資產.243.073.174職工工資.124-.329.303貨物周轉.129.336-.227消費價格-.135.115.656商品零售-.165.271.360工業產值.219.194.174ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.ComponentScoeCovarianceMatixComponent12311.000.000.0002.0001.000.0003.000.0001.000ExtractionMethod:PrincipalComponentAnalysis.ComponentScores.實際上,主成分得分在原始數據所在的SPSS當前數據欄中給出,不過給出的都是標準化的主成分得分(圖12a);將各個主成分乘以相應的J;即特征根的二次方根可以將其還原為未經標準化的主成分得分。

得分1得分1得分2得分訂.42743-1.52320.49020.33935-1.7B001-1.062G4700551.50632■1.19211-.51028.26269-.51B33-.83667.4BB24-.34594.85822.65619-.56565-.19950-.2B604-1.09746.27330.22855-.642881.64990-2.211322.615

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論