




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
假定你是一個公司的財務經理,掌握了公司的所有數據,這包括眾多的變量,比如固定資產、流動資金、每一筆借貸的數額和期限、各種稅費、工資支出、原料消耗、產值、利潤、折舊、職工人數、職工的分工和教育程度等等。如果讓你向上級或有關方面介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎?
引子1當前第1頁\共有40頁\編于星期四\17點當然不能。匯報什么?發現在如此多的變量之中,有很多是相關的。人們希望能夠找出它們的少數“代表”來對它們進行描述。需要把這種有很多變量的數據進行高度概括,用少數幾個指標簡單明了地把情況說清楚。2當前第2頁\共有40頁\編于星期四\17點主成分分析(PrincipalComponentsAnalysis)和因子分析(FactorAnalysis)就是把變量維數降低以便于描述、理解和分析的方法。主成分分析也稱為主分量分析,是一種通過降維來簡化數據結構的方法:如何把多個變量化為少數幾個綜合變量(綜合指標),而這幾個綜合變量可以反映原來多個變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨立,互不相關。這些綜合變量就叫因子或主成分,它是不可觀測的,即它不是具體的變量(這與聚類分析不同),只是幾個指標的綜合。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?3當前第3頁\共有40頁\編于星期四\17點成績數據53個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。4當前第4頁\共有40頁\編于星期四\17點從本例可能提出的問題能不能把這個數據表中的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學生排序呢?5當前第5頁\共有40頁\編于星期四\17點事實上,以上的三個問題在地理學研究中,也會經常遇到。它所涉及的問題可以推廣到對企業、對學校、對區域進行分析、評價、排序和分類等。比如對n個區域進行綜合評價,可選的描述區域特征的指標很多,而這些指標往往存在一定的相關性(既不完全獨立,又不完全相關),這就給研究帶來很大不便。若選指標太多,會增加分析問題的難度與復雜性,選指標太少,有可能會漏掉對區域影響較大的指標,影響結果的可靠性。6當前第6頁\共有40頁\編于星期四\17點這就需要我們在相關分析的基礎上,采用主成分分析法找到幾個新的相互獨立的綜合指標,達到既減少指標數量、又能區分區域間差異的目的。7當前第7頁\共有40頁\編于星期四\17點
二、主成分分析的基本原理8當前第8頁\共有40頁\編于星期四\17點(一)主成分分析的幾何解釋
例中數據點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,語文成績(x1)和數學成績(x2),分別由橫坐標和縱坐標所代表;每個學生都是二維坐標系中的一個點。9當前第9頁\共有40頁\編于星期四\17點空間的點如果這些數據形成一個橢圓形狀的點陣(這在二維正態的假定下是可能的)該橢圓有一個長軸和一個短軸。在短軸方向上數據變化很少;在極端的情況,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。10當前第10頁\共有40頁\編于星期四\17點?????????????????????????????????????假定語文成績(X1)和數學成績(X2)的相關系數ρ=0.6。設X1和X2分別為標準化后的分數,右圖為其散點圖。11當前第11頁\共有40頁\編于星期四\17點那么隨機向量的方差—協方差矩陣為可以看出,在變量標準化的情況下的方差—協方差矩陣與其相關矩陣相等。由求矩陣特征值和特征向量的方法:令可以求出:12當前第12頁\共有40頁\編于星期四\17點對應的特征向量分別為:顯然,這兩個特征向量是相互正交的單位向量。而且它們與原來的坐標軸X1和X2的夾角都分別等于45o。如果將坐標軸X1和X2旋轉45o,那么點在新坐標系中的坐標(Y1,Y2)與原坐標(X1,X2)有如下的關系:Y1和Y2均是X1和X2的線性組合系數代表什么?13當前第13頁\共有40頁\編于星期四\17點?????????????????????????????????????在新坐標系中,可以發現:雖然散點圖的形狀沒有改變,但新的隨機變量Y1和Y2已經不再相關。而且大部分點沿Y1軸散開,在Y1軸方向的變異較大(即Y1的方差較大),相對來說,在Y2軸方向的變異較小(即Y2的方差較小)。14當前第14頁\共有40頁\編于星期四\17點事實上,隨機變量Y1和Y2的方差分別為:可以看出,最大變動方向是由特征向量所決定的,而特征值則刻畫了對應的方差。這只是我們舉的一個例子,對于一般情況,數學上也能證明。15當前第15頁\共有40頁\編于星期四\17點在上面的例子中Y1和Y2就是原變量X1和X2的第一主成分和第二主成分。實際上第一主成分Y1就基本上反映了X1和X2的主要信息,因為圖中的各點在新坐標系中的Y1坐標基本上就代表了這些點的分布情況,因此可以選Y1為一個新的綜合變量。當然如果再選Y2也作為綜合變量,那么Y1和Y2則反映了X1和X2的全部信息。16當前第16頁\共有40頁\編于星期四\17點從幾何上看,找主成分的問題就是找出p維空間中橢球體的主軸問題,就是要在x1~xp的相關矩陣中m個較大特征值所對應的特征向量。究竟提取幾個主成分或因子,一般有兩種方法:特征值>1累計貢獻率>0.8那么如何提取主成分呢?
(二)主成分分析的基本思想
17當前第17頁\共有40頁\編于星期四\17點假定有n個地理樣本,每個樣本共有p個變量,構成一個n×p階的地理數據矩陣
(3.5.1)
綜合指標如何選取呢?這些綜合指標要想盡可能多地反映原指標的信息,綜合指標的表達式中要含有原指標,那么我們通常是取原指標的線性組合,適當調整它們的系數,使綜合指標間相互獨立且代表性好。18當前第18頁\共有40頁\編于星期四\17點
定義:記x1,x2,…,xP為原變量指標,z1,z2,…,zm(m≤p)為新變量指標(3.5.2)
可以看出,新指標對原指標有多個線性組合,新指標對哪個原指標反映的多,哪個少,取決于它的系數。系數lij的確定原則:①
zi與zk(i≠k;i,k=1,2,…,m;j=1,2,…,p)相互無關;19當前第19頁\共有40頁\編于星期四\17點
②
z1是x1,x2,…,xP的一切線性組合中方差最大者(最能解釋它們之間的變化),z2是與z1不相關的x1,x2,…,xP的所有線性組合中方差最大者;…;zm是與z1,z2,……,zm-1都不相關的x1,x2,…xP,的所有線性組合中方差最大者。
則新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xP的第1,第2,…,第m主成分。
20當前第20頁\共有40頁\編于星期四\17點
從以上的分析可以看出,主成分分析的實質就是確定原來變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij(i=1,2,…,m;j=1,2,…,p)。從數學上可以證明,它們分別是相關矩陣(也就是x1,x2,…,xP的相關系數矩陣)m個較大的特征值所對應的特征向量。
21當前第21頁\共有40頁\編于星期四\17點三、主成分分析的計算步驟22當前第22頁\共有40頁\編于星期四\17點(一)計算相關系數矩陣
rij(i,j=1,2,…,p)為原變量xi與xj標準化后的相關系數,rij=rji,其計算公式為(3.5.3)
(3.5.4)
23當前第23頁\共有40頁\編于星期四\17點
(二)計算特征值與特征向量1、解特征方程,求出特征值,并使其按大小順序排列;
2、分別求出對應于特征值的特征向量,要求=1,即,其中表示向量的第j個分量,也就是說為單位向量。24當前第24頁\共有40頁\編于星期四\17點3、計算主成分貢獻率及累計貢獻率貢獻率累計貢獻率
一般取累計貢獻率達85%~95%的特征值所對應的第1、第2、…、第m(m≤p)個主成分。
25當前第25頁\共有40頁\編于星期四\17點4、計算主成分載荷
在主成分之間不相關時,主成分載荷就是主成分zi與變量xj之間的相關系數(在數學上可以證明)
5、各主成分的得分
得到各主成分的載荷以后,可以按照(3.5.2)計算各主成分的得分
(3.5.5)
26當前第26頁\共有40頁\編于星期四\17點(3.5.6)
每個地區的綜合評價值為:對各個主成分進行加權求和。權重為每個主成分方差的貢獻率。27當前第27頁\共有40頁\編于星期四\17點四、SPSS在主成分分析中的應用28當前第28頁\共有40頁\編于星期四\17點以全國31個省市的8項經濟指標為例,進行主成分分析。第一步:錄入或調入數據(圖1)。圖1原始數據(未經標準化)29當前第29頁\共有40頁\編于星期四\17點30當前第30頁\共有40頁\編于星期四\17點⒈設置描述(Descriptives)選項。單擊描述按鈕,彈出描述對話框選中單變量描述性(Univariatedescriptives)復選項,則輸出結果中將會給出原始數據的抽樣均值、方差和樣本數目選中原始分析結果(Initialsolution)復選項,則會給出主成分載荷的公因子方差(這一欄數據分析時有用)。在相關矩陣(CorrelationMatrix)欄中,選中系數(Coefficients)復選項,則會給出原始變量的相關系數矩陣;選中行列式(Determinant)復選項,則會給出相關系數矩陣的行列式,如果希望在Excel中對某些計算過程進行了解,可選此項,否則用途不大。其它復選項一般不用,但在特殊情況下可以用到。設置完成以后,單擊Continue按鈕完成設置(圖5)。31當前第31頁\共有40頁\編于星期四\17點打開抽取對話框。因子提取方法主要有7種,在方法(Method)欄中可以看到,系統默認的提取方法是主成分.因此對此欄不作變動,就是認可了主成分分析方法。⒉設置抽取(Extraction)選項。在分析(Analyze)欄中,選中相關性矩陣(Correlationmatirx)復選項,則因子分析基于數據的相關系數矩陣進行分析;如果選中協方差矩陣(Covariancematrix)復選項,則因子分析基于數據的協方差矩陣進行分析。對于主成分分析而言,由于數據標準化了,這兩個結果沒有分別,因此任選其一即可。32當前第32頁\共有40頁\編于星期四\17點在輸出(Display)欄中,選中Unrotatedfactorsolution(非旋轉因子解)復選項,則在分析結果中給出未經旋轉的因子提取結果。對于主成分分析而言,這一項選擇與否都一樣;對于旋轉因子分析,選擇此項,可將旋轉前后的結果同時給出,以便對比。選中ScreePlot(碎石圖),則在分析結果中給出特征根按大小分布的折線圖以便我們直觀地判定因子的提取數量是否準確。33當前第33頁\共有40頁\編于星期四\17點在抽取欄中,有兩種方法可以決定提取主成分(因子)的數目。一是根據特征根(Eigenvalues)的數值,系統默認的是λ=1。我們知道,在主成分分析中,主成分得分的方差就是對應的特征根數值。如果默認λ=1,則所有方差大于等于1的主成分將被保留,其余舍棄。如果覺得最后選取的主成分數量不足,可以將λ值降低,例如取λ=0.9;如果認為最后的提取的主成分數量偏多,則可以提高λ值,例如取λ=1.1。主成分數目是否合適,要在進行一輪分析以后才能肯定。因此,特征根數值的設定,要在反復試驗以后才能決定。一般而言,在初次分析時,最好降低特征根的臨界值(如取λ=0.8),這樣提取的主成分將會偏多,根據初次分析的結果,在第二輪分析過程中可以調整特征根的大小。34當前第34頁\共有40頁\編于星期四\17點第二種方法是直接指定主成分的數目即因子數目,這要選中Numberoffactors復選項。主成分的數目選多少合適?開始我們并不十分清楚。因此,首次不妨將數值設大一些,但不能超過變量數目。本例有8個變量,因此,最大的主成分提取數目為8,不得超過此數。在我們第一輪分析中,采用系統默認的方法提取主成分。
需要注意的是:主成分計算是利用迭代(Iterations)方法,系統默認的迭代次數是25次。但是,當數據量較大時,25次迭代是不夠的,需要改為50次、100次乃至更多。對于本例而言,變量較少,25次迭代足夠,故無需改動。設置完成以后,單擊Continue按鈕完成設置。35當前第35頁\共有40頁\編于星期四\17點選中保存為變量(Saveasvariables)欄,則分析結果中給出標準化的主成分得分(在數據表的后面)。至于方法復選項,對主成分分析而言,三種方法沒有分別,采用系統默認的“回歸”(Regression)法即可。選中顯示因子得分系數矩陣(Displayfactorscorecoefficientmatrix),則在分析結果中給出因子得分系數矩陣及其相關矩陣。設置完成以后,單擊Continue按鈕完成設置。⒊設置得分(Scores)設置。36當前第36頁\共有40頁\編于星期四\17點⒋其它對于主成分分析而言,旋轉項(Rotation)可以不必設置;對于數據沒有缺失的情況下,選項(Option)項可以不必理會。全部設置完成以后,點擊OK確定,SPSS很快給出計算結果實例:全國31個省市的8項經濟指標37當前第37頁\共有40頁\編于星期四
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年蘇州工業園區服務外包職業學院輔導員考試真題
- 2025年冰水轉化密度試題
- 地理(湖北專用)2025年中考考前押題最后一卷
- 中國式現代化背景下城鄉融合發展的內在需求
- 通過信息化手段提升民主管理的透明度
- 鋒與天氣教學設計
- 2025至2030年中國電動自行車彈簧行業投資前景及策略咨詢報告
- 2025至2030年中國珍珠巖保溫板行業投資前景及策略咨詢報告
- 2025至2030年中國燃燒熱測定實驗裝置行業投資前景及策略咨詢報告
- 小學教師師德建設論文(5篇)
- 日立電梯常用零配件價格清單
- 《新能源材料與器件》教學課件-04電化學能源材料與器件
- 中考英語寫作指導優秀課件(共22張)
- 2021年菏澤職業學院輔導員招聘筆試試題及答案解析
- DBJ51∕T 153-2020 四川省附著式腳手架安全技術標準
- 安全生產三字經
- 二次供水工程技術規程(CJJ140—2010 )
- (高清版)建筑防護欄桿技術標準JGJ_T 470-2019
- 整車數據展示,汽車設計資料
- 加芯攪拌樁技術規程 YB-2007
- 中華口腔醫學會修復專委會專科會員入會申請表
評論
0/150
提交評論