主成分分析原理及詳解_第1頁
主成分分析原理及詳解_第2頁
主成分分析原理及詳解_第3頁
主成分分析原理及詳解_第4頁
主成分分析原理及詳解_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

.z.第14章主成分分析1概述1.1基本概念1.1.1定義主成分分析是根據原始變量之間的相互關系,尋找一組由原變量組成、而彼此不相關的綜合變量,從而濃縮原始數據信息、簡化數據結構、壓縮數據規模的一種統計方法。1.1.2舉例為什么叫主成分,下面通過一個例子來說明。假定有N個兒童的兩個指標*1與*2,如身高和體重。*1與*2有顯著的相關性。當N較大時,N觀測量在平面上形成橢圓形的散點分布圖,每一個坐標點即為個體*1與*2的取值,如果把通過該橢圓形的長軸取作新坐標軸的橫軸Z1,在此軸的原點取一條垂直于Z1的直線定為新坐標軸的Z2,于是這N個點在新坐標軸上的坐標位置發生了改變;同時這N個點的性質也發生了改變,他們之間的關系不再是相關的。很明顯,在新坐標上Z1與N個點分布的長軸一致,反映了N個觀測量個體間離差的大部分信息,若Z1反映了原始數據信息的80%,則Z2只反映總信息的20%。這樣新指標Z1稱為原指標的第一主成分,Z2稱為原指標的第二主成分。所以如果要研究N個對象的變異,可以只考慮Z1這一個指標代替原來的兩個指標(*1與*2),這種做法符合PCA提出的基本要求,即減少指標的個數,又不損失或少損失原來指標提供的信息。1.1.3函數公式通過數學的方法可以求出Z1和Z2與*1與*2之間的關系。Z1=l11*1+l12*2Z2=l21*1+l22*2即新指標Z1和Z2是原指標*1與*2的線性函數。在統計學上稱為第一主成分和第二主成分。若原變量有3個,且彼此相關,則N個對象在3維空間成橢圓球分布,見圖14-1。通過旋轉和改變原點(坐標0點),就可以得到第一主成分、第二主成分和第三主成分。如果第二主成分和第三主成分與第一主成高度相關,或者說第二主成分和第三主成分相對于第一主成分來說變異很小,即N個對象在新坐標的三維空間分布成一長桿狀時,則只需用一個綜合指標便能反映原始數據中3個變量的基本特征。1.2PCA滿足條件1.2.1一般條件一般來說,N個對象觀察p個指標,可以得到N*p個數據(矩陣)。只要p個指標之間存在有相關關系,就可以通過數學的方法找到一組新的指標,它們需要滿足的條件如下。Zi是原指標的線性函數,且它們相互垂直;各個Zi互不相關;各個Zi加起來提供原指標所含的全部的信息,且Z1提供信息最多,Z2次之,依次類推。1.2.2PCA的一般步驟輸入或打開數據文件;數據進行標準化處理;計算矩陣的相關系數;求相關矩陣的特征根λ1、λ2、λ3,并將它們按大小排序。求特征向量和各主成分;計算各主成分的貢獻率;解釋各主成分的含義上述的步驟大部分由SPSS執行,用戶需要選擇觀測對象、選擇變量,收集數據,將數據輸入SPSS程序,最后選擇需要多少個主成分,解釋各主成分的實際意義。1.3SPSS運行主要選擇項1.3.1操作步驟Analyzes/datareduction/factor/openfactoranalyzes/對話框,主要有5個對話框,下面簡要介紹。因子分析主對話框。主要用來選擇變量、選擇輸出結果內容和多少、選擇PCA有關數學處理如是否旋轉,提取多少個因子數,是否保存各個因子得分等。FactorAnalysis:因子分析;Descriptive:描述性統計選項;E*traction:提取因子選項;Rotation:旋轉選擇;Scores:因子得分選項;Option:其它選項。1.3.2主對話框1.3.3Descriptive對話框Statistics:統計數據Univariatedescriptive:單變量描述性統計;Initialsolution:初始解的統計量。Correlationmatri*:相關矩陣Coeffcients:相關系數矩陣。Inverse:相關系數矩陣逆矩陣。Significancelevels:相關系數顯著性水平。Reproduced:再生相關矩陣。給出因子分析后的相關矩陣。1.3.4E*tractionmethod提取公因子方法Method:方法Principalponentsanalyze:主成分分析Unweightleastsquares:未加權最小二乘法Generalizedleastsquares:廣義最小二乘法Analysis:分析Coeffcientsmatri*:相關系數矩陣。Covariancematri*:協方差矩陣。Display:顯示Unrotatedfactorsolution:非旋轉因子解。Screenplotoftheeigenvalues:特征值碎石圖。E*tract:提取。Eigenvaluesover1:系統默認值是1,表示提取特征值大于1的因子。Numberoffactor2:提取公因子的個數。理論上有多少個因子1.3.5Rotationmethod旋轉方法對話框Method:方法None:不進行旋轉Quartima*:四分位最大正交旋轉Varima*:方差最大正交旋轉。Equama*:相等最大正交旋轉。Display:顯示Rotationsolution:旋轉解。Loadingplots:旋轉因子空間的載荷圖。1.3.6Scores因子得分對話框Saveasvariables:將因子得分數據存入為新變量。Regression:用回歸法計算因子得分。Bartlett:巴特尼特法計算因子得分。Anderso-rubin,Anderso-rubin:法計算因子得分。Dispalyfactorscorecoefficientmatr*,顯示因子得分系數矩陣。1.3.7Option對話框MissingValues:缺失值處理E*cludecaseslistwise:刪除全部缺省值的個案。E*cludecasespairwise:成對刪除含有缺省值的個案。Replacewithmean:用均值替代缺省值。Coefficientdisplayformat因子得分系數矩陣的顯示格式。Sortedbysize:按大小排列。回到主對話框上。Variables:選擇左邊變量欄中的變量,用箭頭鍵將要分析的變量移入右邊的變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論