運用spss做因子分析與主成分分析(1)_第1頁
運用spss做因子分析與主成分分析(1)_第2頁
運用spss做因子分析與主成分分析(1)_第3頁
運用spss做因子分析與主成分分析(1)_第4頁
運用spss做因子分析與主成分分析(1)_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、主成分分析和因主成分分析和因子分析子分析 案例案例1 1:成績排名:成績排名100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?主成分分析主成分分析當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。-4-2024-4-2024主成分分析主成分分析正如二維橢圓有兩

2、個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。 怎么解釋這兩個主成分。前面說過主成分怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的是原始六個變量的線性組合。是怎么樣的組合呢?組合呢?SPSSSPSS可以可以輸出下面的表。輸出下面的表。 C Co om mp po on ne en nt t M Ma at tr ri i

3、x xa a-.806.353-.040.468.021.068-.674.531-.454-.240-.001-.006-.675.513.499-.181.002.003.893.306-.004-.037.077.320.825.435.002.079-.342-.083.836.425.000.074.276-.197MATHPHYSCHEMLITERATHISTORYENGLISH123456ComponentExtraction Method: Principal Component Analysis.6 components extracted.a. 這里每一列代表一個主成分作為

4、原來變量線性組這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個原先變量物理、化學(xué)、語文、歷史、英語這六個原先變量的線性組合,系數(shù)(比例)為的線性組合,系數(shù)(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 如用如用x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6分別表示原先的六個變量,而用分別表示原先的六個變量,而用y y1 1, ,y y2 2, ,y y3 3, ,y y4 4,

5、 ,y y5 5, ,y y6 6表示新的主成分,那么,原先六個變量表示新的主成分,那么,原先六個變量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6與第一和第二主成分與第一和第二主成分y y1 1, ,y y2 2的關(guān)系為:的關(guān)系為:X X1 1=-0.806=-0.806y y1 1 + 0.353y + 0.353y2 2X X2 2=-0.674=-0.674y y1 1 + 0.531y + 0.531y2 2X X3 3=-0.675=-0.675y y1 1 + 0.513y + 0.513y2 2X X4 4= 0.893=

6、 0.893y y1 1 + 0.306y + 0.306y2 2x x5 5= 0.825= 0.825y y1 1 + 0.435y + 0.435y2 2x x6 6= 0.836= 0.836y y1 1 + 0.425y + 0.425y2 2 這些系數(shù)稱為主成分載荷(這些系數(shù)稱為主成分載荷(loading),它表示主成分和相),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。應(yīng)的原先變量的相關(guān)系數(shù)。 比如比如x1表示式中表示式中y1的系數(shù)為的系數(shù)為-0.806,這就是說第一主成分和,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。 相關(guān)系數(shù)相關(guān)系數(shù)(絕對值)越大,

7、主成分對該變量的代表性也越大。絕對值)越大,主成分對該變量的代表性也越大。可以看得出,第一主成分對各個變量解釋得都很充分。而最可以看得出,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關(guān)了。后的幾個主成分和原先的變量就不那么相關(guān)了。 Component PlotComponent 11.0.50.0-.5-1.0Component 21.0.50.0-.5-1.0englishhistoryliteratchemphysmath該圖該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點右邊三個點是語文、歷史、外語三科。是語文、歷史、外語三

8、科。圖中的六個點由于比較擠,圖中的六個點由于比較擠,不易分清,但只要認(rèn)識到這些點的坐標(biāo)是前面的第一二不易分清,但只要認(rèn)識到這些點的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識別的。可以識別的。因子分析因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factor rotation);可以使結(jié)果更好。

9、當(dāng)然,對于計算機來說,因子分析并不比主成分分析多費多少時間。從輸出的結(jié)果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在輸出中的因子和原來變量相關(guān)系數(shù)的公式中的系數(shù)不是因子載荷,也給出了二維圖;該圖雖然不是載荷圖,但解釋和主成分分析的載荷圖類似。 因子分析概述定義:定義:因子分析以最少的信息丟失為前提,將眾多的原有變量綜合成較少幾個綜合指標(biāo)綜合指標(biāo),名為因子。通常,因子有以下幾個特點因子個數(shù)遠遠少于原有變量的個數(shù)因子能夠反映原有變量的絕大部分信息因子之間的線性關(guān)系不顯著(即獨立的即獨立的)因子具有命名解釋性因子分析的數(shù)學(xué)模型和相關(guān)概念數(shù)學(xué)

10、模型相關(guān)概念因子載荷(所有系數(shù)構(gòu)成矩陣即因子載荷)變量共同度(即變量X有多少東西飯反映了他)因子的方差貢獻(第一列平方和加起來就是對第一個因子的貢第一列平方和加起來就是對第一個因子的貢獻獻以此類推以此類推)因子分析的基本內(nèi)容因子分析的基本步驟因子分析的前提條件:因子提取:方法是主成分法使因子更具有命名可解釋性:計算各樣本的因子得分因子分析的前提條件如果原有變量之間不存在較強的相關(guān)關(guān)系,那么就無法從中綜合出能夠反映某些變量共同特性的幾個較少的公共因子。因此,一般在因子分析時需首先對因子分析的條件,即原有變量是否相關(guān)進行研究計算相關(guān)系數(shù)矩陣常用指標(biāo):計算相關(guān)系數(shù)矩陣和利用KMO檢驗因子提取和因子載

11、荷矩陣的求解常用方法:主成分分析法主成分分析法因子提取和因子載荷矩陣的求解計算因子載荷矩陣后面的是特征根乘以特征向量根據(jù)特征根確定因子數(shù):一般選取特征值大于1的特征根,或者固定提取幾個因子(根據(jù)因子的累計方差貢獻率)因子的命名1、通過旋轉(zhuǎn)使得因子的含義更清晰(因子是正向的)計算因子得分計算因子得分的途徑是用原有變量來描述因子,第j 個因子在第i 個觀測上的值可表示為:因子得分函數(shù)因子分析的基本操作 主成分分析與因子分析的公式上的區(qū)別主成分分析與因子分析的公式上的區(qū)別111 11221221 122221 122ppppppppppya xa xa xya xa xaxya xaxa x111

12、112211221 1222221 122mmmmppppmmpxa fa fafxa fafafxafafaf111 11221221 122221 122ppppmmmmppfxxxfxxxfxxx主成分分析主成分分析因子分析因子分析(mp) 因子得分因子得分因子分析和主成分分析的一些注意事項因子分析和主成分分析的一些注意事項 可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。(因子要相關(guān),不能完全獨立因子要相關(guān),不能完全獨立)另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降

13、維效果就越好數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。某造紙廠有20個工廠,現(xiàn)要對每個工廠做經(jīng)濟效益分析,選取5個指標(biāo)做分析。x1:固定資產(chǎn)的產(chǎn)值率;x2:凈資產(chǎn)的勞動生產(chǎn)率;x3:百元產(chǎn)值的流動資金占有率;x4:百元產(chǎn)值的利潤率;x5:百元資金的利潤率。案例案例2 2:企業(yè)經(jīng)濟效益分析:企業(yè)經(jīng)濟效益分析1x2x3x4x5x6x數(shù)據(jù)表一x1x2x3x4x5y1x1x2x3x4x5y1124

14、3.87165216.4634.57149.850.48111608.4224922.9424.56233.373.7852240.3182108.8916.9255.89-1.86812433.92125080.6920.06118.70.2543211.151534910.0929.7780.13-1.02113572.63121022.7612.08110.431.1644413.18167607.6724.14105.250.43314533.78119903.811.5975.550.5215349.677216.7416.2799.41-0.78615545.796783.559.

15、4661.190.1796205.47812312.3318.4846.18-2.63616284.6165136.4112.8348.15-1.6627298.11133085.0527.35138.760.35617572.07186642.3117.76162.112.5068414.94137814.116.6598.20.50818409.8673295.8912.2376.68-0.7379287.25140434.2917.6758.35-0.31819564.62143114.9328.5233.582.42210303.93111267.6318.3974.23-0.9512

16、0221.2644314.0830.2580.48-2.5851x2x3x4x5x6x數(shù)據(jù)表二z1z2z3z4z5x1x2x3x4x51-1.049052150.9814709310.0457516342.0292072320.814638609111.6398170692.404821896-1.1045751630.6369958282.3429094242-1.075311647-0.9996829580.839869281-0.425591099-0.904666057120.3528066680.024862754-1.8398692810.0111265650.2446477583

17、-1.2904034820.7020927141.2320261441.361613352-0.461116194131.375968135-0.071918437-1.163398693-1.0987482610.09332113440.199822971.038443110.4411764710.578581363-0.001463861141.08940031-0.098616696-0.823529412-1.16689847-0.5449222325-0.269159844-1.1162494670.137254902-0.515994437-0.108325709151.17732

18、5367-0.649745055-0.905228758-1.463143255-0.807685276-1.332300656-1.0204217851.964052288-0.208623088-1.08234217716-0.748543188-1.4042092670.029411765-0.994436718-1.0462946027-0.6489636350.215564609-0.415032681.0250347710.611710887171.3718374271.492313523-1.310457516-0.308762171.03897529780.2128051930

19、.32831708-0.725490196-0.463143255-0.130466606180.175333776-1.209693375-0.140522876-1.077885953-0.5242451979-0.7290698530.390771937-0.663398693-0.321279555-0.859652333191.3168842660.454657058-0.4542483661.1849791382.34675205910-0.606033783-0.3045746990.428104575-0.221140473-0.56907593820-1.216272037-

20、1.4208956792.5359477121.42837274-0.454711802【1】變量標(biāo)準(zhǔn)化:由于原始數(shù)據(jù)表的量級有很大差別,必須先進行標(biāo)準(zhǔn)化處理 【2】計算樣本相關(guān)矩陣R iiiiSxxzR = 1.0000 0.4463 -0.7540 -0.3471 0.5624 0.4463 1.0000 -0.4578 0.4170 0.7179 -0.7540 -0.4578 1.0000 0.3644 -0.4170 -0.3471 0.4170 0.3644 1.0000 0.4948 0.5624 0.7179 -0.4170 0.4948 1.0000【求特征值和特征向量】V = -0.5026 -0.3456 -0.5115 0.4507 -0.4039 -0.4997 0.2857 0.1421 -0.6283 -0.5038 0.4736 0.3829 0.1469

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論