![主成分分析法[高教書苑]_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-5/30/747b8d93-470e-4dca-b849-777621f185d1/747b8d93-470e-4dca-b849-777621f185d11.gif)
![主成分分析法[高教書苑]_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-5/30/747b8d93-470e-4dca-b849-777621f185d1/747b8d93-470e-4dca-b849-777621f185d12.gif)
![主成分分析法[高教書苑]_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-5/30/747b8d93-470e-4dca-b849-777621f185d1/747b8d93-470e-4dca-b849-777621f185d13.gif)
![主成分分析法[高教書苑]_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-5/30/747b8d93-470e-4dca-b849-777621f185d1/747b8d93-470e-4dca-b849-777621f185d14.gif)
![主成分分析法[高教書苑]_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-5/30/747b8d93-470e-4dca-b849-777621f185d1/747b8d93-470e-4dca-b849-777621f185d15.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第第5 5節節 主成分分析主成分分析 (Principal Components Analysis,PCA) 第三章第三章 地理學中的經典統地理學中的經典統 計分析方法計分析方法 1高級教育 主要內容主要內容 主成分分析概述主成分分析概述 主成分分析的基本原理主成分分析的基本原理 主成分分析的計算步驟主成分分析的計算步驟 主成分分析方法應用實例主成分分析方法應用實例 主成分分析的主成分分析的SPSSSPSS實現過程實現過程 主成分分析的應用及需要注意的問題主成分分析的應用及需要注意的問題 附:主成分分析與因子分析的區別附:主成分分析與因子分析的區別 2高級教育 一、主成分分析概述一、主成分分析
2、概述 3高級教育 v假定你是一個公司的財務經理,掌握了公假定你是一個公司的財務經理,掌握了公 司的所有數據,這包括司的所有數據,這包括眾多的變量眾多的變量,比如,比如 固定資產、流動資金、每一筆借貸的數額固定資產、流動資金、每一筆借貸的數額 和期限、各種稅費、工資支出、原料消耗、和期限、各種稅費、工資支出、原料消耗、 產值、利潤、折舊、職工人數、職工的分產值、利潤、折舊、職工人數、職工的分 工和教育程度等等工和教育程度等等。 v如果讓你向上級或有關方面介紹公司狀況,如果讓你向上級或有關方面介紹公司狀況, 你能夠把這些指標和數字都你能夠把這些指標和數字都原封不動地擺原封不動地擺 出去嗎出去嗎?
3、引子引子 4高級教育 v當然不能。當然不能。匯報什么?匯報什么? v發現在如此多的變量之中,有很多是發現在如此多的變量之中,有很多是 相關的。人們希望能夠找出它們的相關的。人們希望能夠找出它們的少少 數數“代表代表”來對它們進行描述。來對它們進行描述。 v需要把這種有需要把這種有很多變量很多變量的數據進行高的數據進行高 度概括,度概括,用少數幾個指標簡單明了地用少數幾個指標簡單明了地 把情況說清楚。把情況說清楚。 5高級教育 v主成分分析(主成分分析( Principal Components Analysis )和)和 因子分析(因子分析(Factor Analysis)就是把變量維數降低就
4、是把變量維數降低 以便于描述、理解和分析的方法。以便于描述、理解和分析的方法。 v主成分分析也稱為主分量分析,是一種通過降維來主成分分析也稱為主分量分析,是一種通過降維來 簡化數據結構的方法:如何把多個變量化為少數幾簡化數據結構的方法:如何把多個變量化為少數幾 個綜合變量(綜合指標)個綜合變量(綜合指標) ,而這幾個綜合變量可以,而這幾個綜合變量可以 反映原來多個變量的大部分信息,所含的信息又互反映原來多個變量的大部分信息,所含的信息又互 不重疊,即它們之間要相互獨立,互不相關。不重疊,即它們之間要相互獨立,互不相關。 v這些綜合變量就叫因子或主成分,它是不可觀測的這些綜合變量就叫因子或主成分
5、,它是不可觀測的 ,即,即它不是具體的變量它不是具體的變量(這與聚類分析不同),(這與聚類分析不同),只只 是幾個指標的綜合是幾個指標的綜合。 v在引入主成分分析之前,先看下面的例子。在引入主成分分析之前,先看下面的例子。 什么是主成分分析法?什么是主成分分析法? 6高級教育 成績數據成績數據 v53個學生的數學、物理、化學、語文、歷個學生的數學、物理、化學、語文、歷 史、英語的成績如下表(部分)。史、英語的成績如下表(部分)。 7高級教育 從本例可能提出的問題從本例可能提出的問題 v能不能把這個數據表中的能不能把這個數據表中的6 6個變量用一個變量用一 兩個綜合變量來表示呢?兩個綜合變量來表
6、示呢? v這一兩個綜合變量包含有多少原來的信這一兩個綜合變量包含有多少原來的信 息呢?息呢? v能不能利用找到的綜合變量來對學生排能不能利用找到的綜合變量來對學生排 序呢?序呢? 8高級教育 v事實上,以上的三個問題在地理學研究中,事實上,以上的三個問題在地理學研究中, 也會經常遇到。它也會經常遇到。它所涉及的問題可以推廣到所涉及的問題可以推廣到 對企業、對學校、對區域進行對企業、對學校、對區域進行分析、評價、分析、評價、 排序和分類排序和分類等。等。 v比如對比如對n個區域進行綜合評價,可選的描述區個區域進行綜合評價,可選的描述區 域特征的指標很多,而這些指標往往存在域特征的指標很多,而這些
7、指標往往存在一一 定的相關性定的相關性(既不完全獨立,又不完全相關(既不完全獨立,又不完全相關 ),這就給研究帶來很大不便。),這就給研究帶來很大不便。若選指標太若選指標太 多,會增加分析問題的難度與復雜性,選指多,會增加分析問題的難度與復雜性,選指 標太少,有可能會漏掉對區域影響較大的指標太少,有可能會漏掉對區域影響較大的指 標,影響結果的可靠性。標,影響結果的可靠性。 9高級教育 這就需要我們在相關分析的基礎上,采這就需要我們在相關分析的基礎上,采 用主成分分析法找到幾個用主成分分析法找到幾個新的相互獨立新的相互獨立 的綜合指標的綜合指標,達到既減少指標數量、又,達到既減少指標數量、又 能
8、區分區域間差異的目的。能區分區域間差異的目的。 10高級教育 二、主成分分析的基本原理二、主成分分析的基本原理 11高級教育 (一)主成分分析的幾何解釋(一)主成分分析的幾何解釋 v例中數據點是六維的;即每個觀測值是例中數據點是六維的;即每個觀測值是6維空維空 間中的一個點。希望把間中的一個點。希望把6維空間用低維空間表維空間用低維空間表 示。示。 v先假定只有二維,即只有兩個變量,語文成先假定只有二維,即只有兩個變量,語文成 績(績(x1)和數學成績()和數學成績(x2),分別由橫坐標),分別由橫坐標 和縱坐標所代表;和縱坐標所代表; v每個學生都是二維坐標系中的一個點。每個學生都是二維坐標
9、系中的一個點。 12高級教育 空間的點空間的點 v如果這些數據形成一個橢圓形狀的點陣如果這些數據形成一個橢圓形狀的點陣 (這在二維正態的假定下是可能的)該(這在二維正態的假定下是可能的)該 橢圓有一個長軸和一個短軸。在短軸方橢圓有一個長軸和一個短軸。在短軸方 向上數據變化很少;向上數據變化很少; v在極端的情況,短軸如退化成一點,長在極端的情況,短軸如退化成一點,長 軸的方向可以完全解釋這些點的變化,軸的方向可以完全解釋這些點的變化, 由二維到一維的降維就自然完成了。由二維到一維的降維就自然完成了。 13高級教育 2 x 1 x 假定語文成績假定語文成績 (X1) 和數學成和數學成 績績 (X
10、2) 的相的相 關系數關系數= 0.6 。 設設 X1 和和 X2 分別分別 為標準化后的分為標準化后的分 數,右圖為其散數,右圖為其散 點圖。點圖。 14高級教育 那么隨機向量那么隨機向量 的方差的方差協方差矩陣為協方差矩陣為 可以看出,在變量標準化的情況下的方差可以看出,在變量標準化的情況下的方差協方差協方差 矩陣與其相關矩陣相等。矩陣與其相關矩陣相等。 由求矩陣特征值和特征向量的方法:令由求矩陣特征值和特征向量的方法:令 可以求出:可以求出: 15高級教育 對應的特征向量分別為:對應的特征向量分別為: 顯然,這兩個特征向量是顯然,這兩個特征向量是相互正交的相互正交的單位向量。而且它們單位
11、向量。而且它們 與原來的坐標軸與原來的坐標軸 X1 和和 X2 的夾角都分別等于的夾角都分別等于45 。如果將。如果將 坐標軸坐標軸 X1 和和 X2 旋轉旋轉45 ,那么點在新坐標系中的坐標,那么點在新坐標系中的坐標 (Y1,Y2)與原坐標()與原坐標(X1,X2)有如下的關系:)有如下的關系: Y1和和Y2均是均是X1 和和 X2 的線性組合的線性組合 系數代表什么?系數代表什么? 16高級教育 2 x 1 x 在新坐標系中,在新坐標系中, 可以發現:雖然可以發現:雖然 散點圖的形狀沒散點圖的形狀沒 有改變,但新的有改變,但新的 隨機變量隨機變量 Y1 和和 Y2 已經不再相已經不再相 關
12、。而且大部分關。而且大部分 點沿點沿 Y1 軸散開,軸散開, 在在 Y1 軸方向的軸方向的 變異較大(即變異較大(即 Y1的方差較的方差較 大)大) ,相對來說,相對來說, 在在 Y2軸方向的軸方向的 變異較小(即變異較小(即 Y2 的方差較的方差較 小)小) 。 17高級教育 事實上,隨機變量事實上,隨機變量 Y1和和 Y2的方差分別為:的方差分別為: 可以看出,可以看出,最大變動最大變動方向方向是由特征向量所決定的,是由特征向量所決定的, 而特征值則刻畫了對應的方差。而特征值則刻畫了對應的方差。這只是我們舉的這只是我們舉的 一個例子,對于一般情況,數學上也能證明。一個例子,對于一般情況,數
13、學上也能證明。 18高級教育 在上面的例子中在上面的例子中 Y1 和和 Y2 就是原變量就是原變量 X1和和 X2 的第一主成分和第二主成分。實際上第一主成的第一主成分和第二主成分。實際上第一主成 分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因 為圖中的各點在新坐標系中的為圖中的各點在新坐標系中的 Y1 坐標基本上就坐標基本上就 代表了這些點的分布情況,因此可以選代表了這些點的分布情況,因此可以選 Y1 為一為一 個新的綜合變量。當然如果再選個新的綜合變量。當然如果再選 Y2也作為綜合也作為綜合 變量,那么變量,那么 Y1 和和 Y2 則反映了則反映了
14、X1 和和 X2的全部的全部 信息。信息。 19高級教育 從幾何上看,找主成分的問題就是找出從幾何上看,找主成分的問題就是找出 p維空間中橢球體的主軸問題,就是要在維空間中橢球體的主軸問題,就是要在 x1xp的相關矩陣中的相關矩陣中m個較大特征值所對應的個較大特征值所對應的 特征向量。特征向量。 究竟提取幾個主成分或因子,一般有兩究竟提取幾個主成分或因子,一般有兩 種方法:種方法: v特征值特征值11 v累計貢獻率累計貢獻率0.80.8 那么如何提取主成分呢?那么如何提取主成分呢? (二)主成分分析的基本思想(二)主成分分析的基本思想 20高級教育 假定有假定有n個地理樣本,每個樣本共有個地理
15、樣本,每個樣本共有p p個變量,個變量, 構成一個構成一個np階的地理數據矩陣階的地理數據矩陣 npnn p p xxx xxx xxx X 21 22221 11211 (3.5.1) 綜合指標如何選取呢?這些綜合指標要想盡可能多地綜合指標如何選取呢?這些綜合指標要想盡可能多地 反映原指標的信息,綜合指標的表達式中要含有原指反映原指標的信息,綜合指標的表達式中要含有原指 標,那么我們通常是取原指標的線性組合,適當調整標,那么我們通常是取原指標的線性組合,適當調整 它們的系數,使綜合指標間相互獨立且代表性好。它們的系數,使綜合指標間相互獨立且代表性好。 21高級教育 定義:記定義:記x1,x2
16、,xP為原變量指標,為原變量指標, z1,z2,zm(mp)為新變量指標)為新變量指標 pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . (3.5.2) 可以看出,新指標對原指標有多個線性組合,可以看出,新指標對原指標有多個線性組合, 新指標對哪個原指標反映的多,哪個少,取決于它的新指標對哪個原指標反映的多,哪個少,取決于它的 系數。系數系數。系數lij的確定原則:的確定原則: zi與與zk(ik;i,k=1,2,m; j= 1,2,p )相互無關;)相互無關;22高級教育 z1是是x1,x2,xP的一切線性組合的一切線
17、性組合 中方差最大者中方差最大者(最能解釋它們之間的變化),最能解釋它們之間的變化), z2是與是與z1不相關的不相關的x1,x2,xP的所有線性的所有線性 組合中方差最大者組合中方差最大者; zm是與是與z1,z2, zm 1都不相關的 都不相關的x1,x2,xP, , 的所有線性組 的所有線性組 合中方差最大者。合中方差最大者。 則新變量指標則新變量指標z1,z2,zm分別稱為原分別稱為原 變量指標變量指標x1,x2,xP的第的第1,第,第2,第,第 m主成分。主成分。 23高級教育 從以上的分析可以看出,主成分分析的從以上的分析可以看出,主成分分析的 實質就是確定原來變量實質就是確定原來
18、變量xj(j=1,2 , p) 在諸主成分在諸主成分zi(i=1,2,m)上的荷載)上的荷載 lij ( i=1,2,m; j=1,2 ,p)。)。 從數學上可以證明,它們分別是相關矩從數學上可以證明,它們分別是相關矩 陣(也就是陣(也就是x1,x2,xP 的相關系數矩陣)的相關系數矩陣) m個較大的特征值所對應的特征向量。個較大的特征值所對應的特征向量。 24高級教育 三、主成分分析的計算步驟三、主成分分析的計算步驟 25高級教育 (一)計算相關系數矩陣一)計算相關系數矩陣 rij(i,j=1,2,p)為原變量)為原變量xi與與xj標準化后的標準化后的 相關系數,相關系數, rij=rji,
19、 ,其計算公式為 其計算公式為 pppp p p rrr rrr rrr R 21 22221 11211 (3.5.3) n k n k jkjiki n k jkjiki ij xxxx xxxx r 11 22 1 )()( )( (3.5.4) 26高級教育 (二)計算特征值與特征向量(二)計算特征值與特征向量 1、解特征方程,求出特征值,、解特征方程,求出特征值, 并使其按大小順序排列并使其按大小順序排列 ; 0RI 0 21 p 2、分別求出對應于特征值、分別求出對應于特征值 的特征向量的特征向量 ,要求,要求 =1,即,即, 其中表示向量其中表示向量 的第的第j個分量個分量,也就
20、是說也就是說 為單位向量。為單位向量。 i ), 2 , 1(piei i e 1 1 2 p j ij e ij e i e i e 27高級教育 3 3、計算主成分貢獻率及累計貢獻率、計算主成分貢獻率及累計貢獻率 貢獻率貢獻率 ),2, 1( 1 pi p k k i 累計貢獻率累計貢獻率 ),2, 1( 1 1 pi p k k i k k 一般取累計貢獻率達一般取累計貢獻率達85%95%的特征值的特征值 所對應的第所對應的第1 1、第、第2 2、第、第m(mp)個主成分。)個主成分。 m , 21 28高級教育 4、計算主成分載荷計算主成分載荷 在主成分之間不相關時,在主成分之間不相關
21、時,主成分載荷就是主成分主成分載荷就是主成分z zi i與變量與變量x xj j之之 間的相關系數間的相關系數(在數學上可以證明)(在數學上可以證明) 5 5、各主成分的得分、各主成分的得分 得到各主成分的載荷以后,可以按照(得到各主成分的載荷以后,可以按照(3.5.23.5.2)計算各主成)計算各主成 分的得分分的得分 ), 2 , 1,(),(pjiexzpl ijijiij (3.5.5) pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz 2211 22221212 12121111 . 29高級教育 nmnn m m zzz zzz zzz Z 21 22221
22、 11211 (3.5.6) 每個地區的綜合評價值為:對各個主成分每個地區的綜合評價值為:對各個主成分 進行加權求和。權重為每個主成分方差的進行加權求和。權重為每個主成分方差的 貢獻率。貢獻率。 30高級教育 四、四、 主成分分析方法應用實例主成分分析方法應用實例 31高級教育 (一)(一)下面,我們根據表下面,我們根據表3.5.13.5.1給出的給出的 數據,對某農業生態經濟系統做主成分分析。數據,對某農業生態經濟系統做主成分分析。 表3.5.13.5.1 某農業生態經濟系統各區域單元的有關數據 32高級教育 33高級教育 步驟如下:步驟如下: (1)將表)將表3.5.1中的數據作標準差標準
23、化中的數據作標準差標準化 處理,然后將它們代入公式(處理,然后將它們代入公式(3.5.4)計算相)計算相 關系數矩陣(表關系數矩陣(表3.5.2)。)。 x1x2x3x4x5x6x7x8x9 x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744 x2-0.331-0.0350.6440.420.2550.009-0.0780.094 x3-0.71-0.03510.07-0.74-0.755-0.93-0.109-0.924 x4-0.340.6440.0710.3830.069-0.05-0.0310.073 x50.3090.42-0.740.38
24、310.7340.6720.0980.747 x60.4080.255-0.7550.0690.73410.6580.2220.707 x70.790.009-0.93-0.0460.6720.6581-0.030.89 x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29 x90.7440.094-0.9240.0730.7470.7070.890.291 表3.5.23.5.2相關系數矩陣 34高級教育 (2)由相關系數矩陣計算特征)由相關系數矩陣計算特征 值,以及各個主成分的貢獻率與累值,以及各個主成分的貢獻率與累 計貢獻率(表計貢獻率(表3.5
25、.3)。由表)。由表3.5.3可可 知,第知,第1,第,第2,第,第3主成分的累計貢主成分的累計貢 獻率已高達獻率已高達86.596%(大于(大于85%),), 故只需要求出第故只需要求出第1、第、第2、第、第3主成分主成分 z1,z2,z3即可。即可。 35高級教育 表3.5.33.5.3特征值及主成分貢獻率 =4.661/8.9988 36高級教育 (3 3)對于特征值)對于特征值 分別分別 =4.661 0=4.661 0、 =2.089 0=2.089 0、=1.0430=1.0430,分別求出其特征向量,分別求出其特征向量 e1 1,e2 2,e3 3,再用公式(,再用公式(3.5.
26、53.5.5)計算各變量)計算各變量 x x1 1,x2 2,x9 9在主成分在主成分z1 1,z2 2,z3 3上的載荷上的載荷 (表(表3.5.43.5.4)。)。 i 37高級教育 表表3.5.4 3.5.4 主成分載荷主成分載荷 上述計算過程上述計算過程,可以借助于可以借助于SPSS或或Matlab軟件系統實現。軟件系統實現。 38高級教育 (1)從表從表3.5.4可以看出,第可以看出,第1主成分主成分z1 與與x1,x5,x6,x7,x9呈現出較強的正相呈現出較強的正相 關,與關,與x3呈現出較強的負相關,而這幾個呈現出較強的負相關,而這幾個 變量則綜合反映了生態經濟結構狀況,因變量
27、則綜合反映了生態經濟結構狀況,因 此可以認為第此可以認為第1主成分主成分z1是生態經濟結構是生態經濟結構 的代表。的代表。 (2)第第2主成分主成分z2與與x2,x4,x5呈現出較呈現出較 強的正相關,與強的正相關,與x1呈現出較強的負相關,呈現出較強的負相關, 其中,除了其中,除了x1為人口總數外,為人口總數外,x2,x4,x5都都 反映了人均占有資源量的情況,因此可以反映了人均占有資源量的情況,因此可以 認為第認為第2主成分主成分z2代表了人均資源量。代表了人均資源量。 分析:主成分載荷是主成分與變量之間的分析:主成分載荷是主成分與變量之間的 相關系數。相關系數。 39高級教育 顯然,用顯
28、然,用3個主成分個主成分z1、z2、z3代替原來代替原來 9個變量個變量(x1,x2,x9)描述農業生態)描述農業生態 經濟系統,可以使問題更進一步簡化、明經濟系統,可以使問題更進一步簡化、明 了。了。 (3)第第3主成分主成分z3與與x8呈現出的正相關程度呈現出的正相關程度 最高,其次是最高,其次是x6,而與,而與x7呈負相關,因此可呈負相關,因此可 以認為第以認為第3主成分在一定程度上代表了農業主成分在一定程度上代表了農業 經濟結構。經濟結構。 (4)另外,表另外,表3.5.4中最后一列(占方差中最后一列(占方差 的百分數),在一定程度上反映了的百分數),在一定程度上反映了3個主成個主成
29、分分z1、z2、z3包含原變量(包含原變量(x1,x2,x9) 的信息量多少。的信息量多少。 40高級教育 v接著還可以計算每個主成分的得分,接著還可以計算每個主成分的得分, 組成一個新的數據集,作為進一步應組成一個新的數據集,作為進一步應 用系統聚類分析方法進行區劃、分類用系統聚類分析方法進行區劃、分類 的新的出發點。的新的出發點。 v也可以用來綜合評價。也可以用來綜合評價。 v進行區域差異分析進行區域差異分析 41高級教育 五、主成分分析的五、主成分分析的SPSS實現過程實現過程 42高級教育 v以書上例子為例,將數據存為以書上例子為例,將數據存為.sav文件文件, v選選AnalyzeD
30、ata ReductionFactor進入主對話框;進入主對話框; v把把x1x9選入選入Variables,然后點擊,然后點擊Descriptive v擊擊Extraction, 在在Method選擇一個方法(如果是主成分分析,則選選擇一個方法(如果是主成分分析,則選 Principal Components),), 下面的選項可以隨意,比如要畫碎石圖就選下面的選項可以隨意,比如要畫碎石圖就選Scree plot,另,另 外在外在Extract選項可以按照特征值的大小選主成分(或因選項可以按照特征值的大小選主成分(或因 子),也可以選定因子的數目;子),也可以選定因子的數目; 之后回到主對話
31、框(用之后回到主對話框(用Continue)。)。 v然后點擊然后點擊Rotation,再在該對話框中的,再在該對話框中的Method選擇一個選擇一個 旋轉方法(如果是不作旋轉就選旋轉方法(如果是不作旋轉就選None,我們選,我們選Varimax, 方差最大正交旋轉法),方差最大正交旋轉法), 在在Display選選Rotated solution(以輸出和旋轉有關的結(以輸出和旋轉有關的結 果)和果)和Loading plot(以輸出載荷圖);之后回到主對話(以輸出載荷圖);之后回到主對話 框(用框(用Continue)。)。 v如果要計算因子得分就要點擊如果要計算因子得分就要點擊Score
32、s,再選擇,再選擇Save as variables(因子得分就會作為變量存在數據中的附加列上)(因子得分就會作為變量存在數據中的附加列上) 和計算因子得分的方法(比如和計算因子得分的方法(比如Regression);之后回到);之后回到 主對話框(用主對話框(用Continue)。這時點)。這時點OK即可。即可。 43高級教育 44高級教育 45高級教育 46高級教育 47高級教育 48高級教育 49高級教育 結果解釋結果解釋 C Co or rr re el la at ti io on n M Ma at tr ri ix x 1.000-.327-.714-.336.309.408.7
33、90.156.744 -.3271.000-.035.644.420.255.009-.078.094 -.714-.0351.000.070-.740-.755-.930-.109-.924 -.336.644.0701.000.383.069-.046-.031.073 .309.420-.740.3831.000.734.672.098.747 .408.255-.755.069.7341.000.658.222.707 .790.009-.930-.046.672.6581.000-.030.890 .156-.078-.109-.031.098.222-.0301.000.290 .
34、744.094-.924.073.747.707.890.2901.000 人口密度 人均耕地面積 森林覆蓋率 農民人均純收入 人均糧食產量 經濟作物占農作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 Correlation 人口密度 人均耕 地面積森林覆蓋率 農民人均 純收入 人均糧 食產量 經濟作物 占農作物 播面比例 耕地占土 地面積比 果園與林地 面積之比 灌溉田占耕 地面積之 KMO and Bartletts TestKMO and Bartletts Test .759 159.767 36 .000 Kaiser-Meyer-Olkin Measure
35、 of Sampling Adequacy. Approx. Chi-Square df Sig. Bartletts Test of Sphericity KMO值大于值大于0.5, Bartletts Test的的 Sig. 大于大于0.05表表 明可用因子分析明可用因子分析 50高級教育 結果解釋結果解釋 CommunalitiesCommunalities 1.000.832 1.000.803 1.000.947 1.000.757 1.000.858 1.000.718 1.000.952 1.000.990 1.000.938 人口密度 人均耕地面積 森林覆蓋率 農民人均純收入
36、人均糧食產量 經濟作物占農作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 InitialExtraction Extraction Method: Principal Component Analysis. 說明提取的幾個因子包含每個原變量的程度說明提取的幾個因子包含每個原變量的程度 公因子方差公因子方差 51高級教育 結果解釋結果解釋 這里的這里的Initial Eigenvalues就是特征值(數據就是特征值(數據 相關陣的特征值)。相關陣的特征值)。頭三個成分特征值累頭三個成分特征值累 積占了總方差的積占了總方差的86.596%。后面的特征值的。后面的特征值的
37、貢獻越來越少。貢獻越來越少。 Total Variance ExplainedTotal Variance Explained 4.66151.79051.7904.66151.79051.7904.60551.17251.172 2.08923.21775.0072.08923.21775.0072.10023.32974.500 1.04311.58986.5961.04311.58986.5961.08912.09586.596 .5075.63892.234 .3153.50295.736 .1932.14097.876 .1141.27199.147 .045.50499.650 .
38、031.350100.000 Component 1 2 3 4 5 6 7 8 9 Total% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative % Initial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared Loadings Extraction Method: Principal Component Analysis. 52高級教育 特征值的貢獻還可以從特征值的貢獻還可以從SP
39、SS的所謂碎石圖看出的所謂碎石圖看出 53高級教育 怎么解釋這三個主成分。前面說過主成分是原始九怎么解釋這三個主成分。前面說過主成分是原始九 個變量的線性組合。是怎么樣的組合呢?個變量的線性組合。是怎么樣的組合呢?SPSSSPSS可以可以 輸出下面的表。輸出下面的表。 這里每一列代表一個主成分作為原來變量線性組合的系數這里每一列代表一個主成分作為原來變量線性組合的系數 (比例)。比如第一主成分寫成九個原先變量的線性組合,(比例)。比如第一主成分寫成九個原先變量的線性組合, 系數(比例)為系數(比例)為0.739, 0.123, -0.964, 0.042, 0.813, 0.819,0.933
40、, 0.197,0.964。 C Co om mp po on ne en nt t M Ma at tr ri ix x a a .739-.532-.061 .123.887-.028 -.964.096.095 .042.868.037 .813.444-.011 .819.179.125 .933-.133-.251 .197-.100.970 .964-.025.092 人口密度 人均耕地面積 森林覆蓋率 農民人均純收入 人均糧食產量 經濟作物占農作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 123 Component Extraction Method:
41、 Principal Component Analysis. 3 components extracted. a. 54高級教育 如用如用x x1 1 x x9 9分別表示原先的九個變量,而用分別表示原先的九個變量,而用y y1 1, ,y y2 2, ,y y3 3, , 表示新的表示新的 主成分,那么,原先九個變量主成分,那么,原先九個變量x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6與第一和第二與第一和第二 第三主成分第三主成分y y1 1, ,y y2 2, ,y y3 3的關系為: 的關系為: y y 1 1 = 0 . 7 3
42、 9= 0 . 7 3 9x x 1 1 + 0 . 1 2 3 x 2 2 - 0 . 9 6 4x x 3 3 + 0 . 0 4 2x x 4 4 + 0.813x x5 5+0.819x x6 6+0.933x x7 7+0.197x x8 8+0.964x x9 9 這些系數稱為主成分載荷(這些系數稱為主成分載荷(loading),它表示主成分和相應的),它表示主成分和相應的 原先變量的相關系數。原先變量的相關系數。 相關系數相關系數(絕對值)越大,主成分對該變量的代表性也越大。絕對值)越大,主成分對該變量的代表性也越大。 可以看得出,第一主成分對各個變量解釋得都很充分。而最后可以看
43、得出,第一主成分對各個變量解釋得都很充分。而最后 的幾個主成分和原先的變量就不那么相關了。的幾個主成分和原先的變量就不那么相關了。 55高級教育 Rotated Component MatrixRotated Component Matrix a a .773-.483.044 .070.891-.054 -.972.034-.016 -.017.870.003 .780.496.059 .787.238.206 .962-.079-.141 .093-.051.989 .947.043.198 人口密度 人均耕地面積 森林覆蓋率 農民人均純收入 人均糧食產量 經濟作物占農作物播 面比例 耕地
44、占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 123 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 4 iterations. a. X X1 1=0.773=0.773y y1 1-0.483-0.483y y2 2+0.044+0.044y y3 3 56高級教育 計算因子得分計算因子得分 v可以根據前面的因子得分公式(因子得可以根據前面的因子得分公式(因子得 分系
45、數和原始變量的標準化值的乘積之分系數和原始變量的標準化值的乘積之 和),算出每個樣本的第一個因子、第和),算出每個樣本的第一個因子、第 二個因子和第三個主成分的大小,即算二個因子和第三個主成分的大小,即算 出出每個樣本每個樣本的因子得分的因子得分f1, , f2和 和f3。 v人們可以根據這三套因子得分對樣本分人們可以根據這三套因子得分對樣本分 別排序。當然得到因子得分只是別排序。當然得到因子得分只是SPSS軟軟 件的一個選項(可將因子得分存為新變件的一個選項(可將因子得分存為新變 量、顯示因子得分系數矩陣)量、顯示因子得分系數矩陣) 57高級教育 Component Score Coeffi
46、cient MatrixComponent Score Coefficient Matrix .180-.245-.030 .003.424-.043 -.218.035.066 -.021.416.018 .161.223-.001 .155.102.134 .230-.059-.215 -.059-.011.930 .196.005.110 人口密度 人均耕地面積 森林覆蓋率 農民人均純收入 人均糧食產量 經濟作物占農作物播 面比例 耕地占土地面積比 果園與林地面積之比 灌溉田占耕地面積之 123 Component Extraction Method: Principal Compone
47、nt Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 58高級教育 六、主成分分析的應用六、主成分分析的應用 59高級教育 根據主成分分析的定義及性質,我們已大體上根據主成分分析的定義及性質,我們已大體上 能看出主成分分析的一些應用。概括起來說,主成能看出主成分分析的一些應用。概括起來說,主成 分分析主要有以下幾方面的應用。分分析主要有以下幾方面的應用。 1主成分分析能降低所研究的數據空間的維數主成分分析能降低所研究的數據空間的維數 。即用研究。即用研究m維的維的Y空間代替空間代替p
48、維的維的X空間空間(mp), 而低維的而低維的Y空間代替空間代替 高維的高維的x空間所損失的信息很空間所損失的信息很 少。即使只有一個主成分少。即使只有一個主成分Yl(即即 m1)時,這個時,這個Yl仍仍 是使用全部是使用全部X變量變量(p個個)得到的。例如要計算得到的。例如要計算Yl的均的均 值也得使用全部值也得使用全部x的均值。在所選的前的均值。在所選的前m個主成分個主成分 中,如果某個中,如果某個Xi的系數全部近似于零的話,就可以的系數全部近似于零的話,就可以 把這個把這個Xi刪除,這也是一種刪除多余變量的方法。刪除,這也是一種刪除多余變量的方法。 60高級教育 2有時可通過因子負荷有時
49、可通過因子負荷aij的結構,弄清的結構,弄清X變量間的變量間的 某些關系。某些關系。 3. 多維數據的一種圖形表示方法。我們知道當維數多維數據的一種圖形表示方法。我們知道當維數 大于大于3時便不能畫出幾何圖形,多元統計研究的問題大時便不能畫出幾何圖形,多元統計研究的問題大 都多于都多于3個變量。要把研究的問題用圖形表示出來是不個變量。要把研究的問題用圖形表示出來是不 可能的。然而,經過主成分分析后,我們可以選取前兩可能的。然而,經過主成分分析后,我們可以選取前兩 個主成分或其中某兩個主成分,根據主成分的得分,畫個主成分或其中某兩個主成分,根據主成分的得分,畫 出出n個樣品在二維平面上的分布狀況
50、,由圖形可直觀地個樣品在二維平面上的分布狀況,由圖形可直觀地 看出各樣品在主分量中的地位。看出各樣品在主分量中的地位。 61高級教育 4由主成分分析法構造回歸模型。即把各主成由主成分分析法構造回歸模型。即把各主成 分作為新自變量代替原來自變量分作為新自變量代替原來自變量x做回歸分析。做回歸分析。 5用主成分分析篩選回歸變量。回歸變量的選用主成分分析篩選回歸變量。回歸變量的選 擇有著重要的實際意義,為了使模型本身易于做結擇有著重要的實際意義,為了使模型本身易于做結 構分析、控制和預報,好從原始變量所構成的子集構分析、控制和預報,好從原始變量所構成的子集 合中選擇最佳變量,構成最佳變量集合,用主成
51、分合中選擇最佳變量,構成最佳變量集合,用主成分 分析篩選變量,可以用較少的計算量來選擇變量,分析篩選變量,可以用較少的計算量來選擇變量, 獲得選擇最佳變量子集合的效果。獲得選擇最佳變量子集合的效果。 62高級教育 附、主成分分析與因子附、主成分分析與因子 分析的區別分析的區別 63高級教育 因子分析因子分析 v主成分分析從原理上是尋找橢球的所有主主成分分析從原理上是尋找橢球的所有主 軸。原先有幾個變量,就有幾個主成分。軸。原先有幾個變量,就有幾個主成分。 v而因子分析是事先確定要找幾個成分,這而因子分析是事先確定要找幾個成分,這 里叫因子(里叫因子(factor)(比如兩個),那就找)(比如兩
52、個),那就找 兩個。兩個。 v這使得在數學模型上,因子分析和主成分這使得在數學模型上,因子分析和主成分 分析有不少區別。而且因子分析的計算也分析有不少區別。而且因子分析的計算也 復雜得多。根據因子分析模型的特點,它復雜得多。根據因子分析模型的特點,它 還多一道工序:因子旋轉(還多一道工序:因子旋轉(factor rotation );這個步驟可以使結果更好。);這個步驟可以使結果更好。 64高級教育 v對于計算機,因子分析并不費事。對于計算機,因子分析并不費事。 v從輸出的結果來看,因子分析也有因子從輸出的結果來看,因子分析也有因子 載荷(載荷(factor loading)的概念,代表)的概
53、念,代表 了因子和原先變量的相關系數。但是在了因子和原先變量的相關系數。但是在 因子分析公式中的因子載荷位置和主成因子分析公式中的因子載荷位置和主成 分分析不同。分分析不同。 v因子分析也給出了二維圖;其解釋和主因子分析也給出了二維圖;其解釋和主 成分分析的載荷圖類似。成分分析的載荷圖類似。 65高級教育 主成分分析與因子分析的公式上的區別主成分分析與因子分析的公式上的區別 111 11221 221 12222 1 122 pp pp pppppp ya xa xa x ya xa xax ya xaxa x 111 112211 221 122222 1 122 mm mm ppppmmp
54、 xa fa faf xa fafaf xafafaf 111 11221 221 12222 1 122 pp pp mmmmpp fxxx fxxx fxxx 主成分分析主成分分析 因子分析因子分析(mp) 因子得分因子得分 主成分載荷主成分載荷 旋轉之后的旋轉之后的 因子載荷因子載荷 因子得分因子得分 系數中的值系數中的值 66高級教育 對于學生成績的數據,對于學生成績的數據,SPSSSPSS因子分析輸出因子分析輸出 為為 Rotated Component MatrixRotated Component Matrix a a -.387.790 -.172.841 -.184.827
55、.879-.343 .911-.201 .913-.216 MATH PHYS CHEM LITERAT HISTORY ENGLISH 12 Component Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 3 iterations.a. 67高級教育 這個表說明六個變量和因子的關系。這個表說明六個變量和因子的關系。 為簡單記,我們用為簡單記,我們用x1, x2, x3, x4, x5, x6來表示來表示math(數學),(數學), phys(物(物 理),理),chem(化學),(化學),literat(語(語 文),文),history(歷史),(歷史),english (英語)等變量。這樣因子(英語)等變量。這樣因子f1和和f2與與 這些原變量之間的關系是(注意,這些原變量之間的關系是(注意, 和主成分分析不同,這里把成分和主成分分析不同,這里把成分 (因子)寫在方程的右邊,把原變(因子)寫在方程的右邊,把原變 量寫在左邊;但相應的系數還是主量寫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司背景墻策劃方案
- 公司春季放風箏活動方案
- 公司游園小活動策劃方案
- 公司職稱評審策劃方案
- 公司群體互動策劃方案
- 公司群體性運動活動方案
- 公司節前大掃除活動方案
- 公司知識跨年活動方案
- 公司管理規范年活動方案
- 公司旅游預熱引流活動方案
- 網絡輿情監控管理制度
- 機器試用擔保協議書范本
- 小學生預防拐騙教育課件
- 醫學影像分析-洞察及研究
- 2025至2030中國無線通訊檢測行業市場發展分析及競爭格局與投資機會報告
- 2025年上海徐匯區高一(下)信息技術合格考試題及答案
- 國家開放大學《理工英語1》期末機考題庫
- 少兒財商的培養(課堂)課件
- 暨南大學《馬克思主義基本原理概論》題庫歷年期末考試真題分類匯編及答案
- 青霉素的發現與作用課件
- 2018年專利代理師資格考試科目三-專利代理實務真題及解析
評論
0/150
提交評論