第十三講-主成分分析和因子分析_第1頁
第十三講-主成分分析和因子分析_第2頁
第十三講-主成分分析和因子分析_第3頁
第十三講-主成分分析和因子分析_第4頁
第十三講-主成分分析和因子分析_第5頁
已閱讀5頁,還剩45頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主成分分析和因子分析

PrincipalComponentsAnalysisAndFactoranalysis引言實際工作中,為了全面系統反映問題,往往收集的變量較多,但是經常出現變量間具有較強的相關關系的情況。直接使用這些變量,會出現模型相當復雜而無法得到合理的專業解釋的情況,更甚至會出現多重共線性問題而引起較大的誤差。因此,引入主成分分析和因子分析。一、主成分分析主成分分析的一般目的:

定義主成分分析:是一種通過降維技術把多個變量化為少數幾個主成分(即綜合變量)的統計分析方法變量的降維主成分的解釋1

概述17個變量國民經濟指標3個變量雇主補貼純公共支出股息生產指數利息凈增庫存消費資料外貿盈余人口總收入F1總收入變化率F2經濟發展趨勢F3國民經濟指標

例子一項十分著名的工作是美國的統計學家斯通(stone)在1947年關于國民經濟的研究。主成分分析1

概述年度指標外貿盈余人口股息利息消費資料…….….1980120100358646343571981155133441524134479198217612014159143634319831231531618319571661984186134281772856582198521115635124337745719861971652915547863951987166135271322935284198815517723187438573719891271355919529895981990123153161834657166年度指標F1F2F319801201003519811551334419821761201419831231531619841861342819852111563519861971652919871661352719881551772319891271355919901231531661.1基本思想數據的降維、數據的解釋由于多個變量之間往往存在著一定程度的相關性。通過線性組合的方式將原來眾多具有一定相關性的指標,組合成一組新的相互無關的綜合指標。從中選取幾個較少的綜合指標盡可能多的反映原來眾多指標的信息。在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機向量。因此,通過主成分既可以降低數據“維數”又保留了原數據的大部分信息。7X1X2112-2-2-1-120相關變異X1和X2組成的散點分布在一條直線周圍,X1、X2間存在線性關系二、數學模型及幾何意義8X1X2Z1Z2112-2-2-2-211-1-1-1-12220以該直線為坐標軸Z1,其垂直線Z2為另外一個坐標抽,Z1和Z2互相垂直且彼此線性無關Z1Z2-2-211-1-1220相關變異N個觀測的差異主要表現在Z1方向上,可以用Z1代替原始變量X1X2研究觀測對象的差異。Z1,Z2可用原始變量X1X2的線性組合表示,即Z1為主成分的話,就反映了原始變量指標的主要信息設有m個原始變量X1……Xm,欲找到新的綜合指標,Z1……Zm。從數學上講,就是尋求一組常數ai1,ai2….aim,使m個指標的線性組合:在m個Zm新變量中可找到a個新變量能解釋原始數據的大部分方差所包含的信息。其余的m-a個新變量對方差影響很小。這m個變量為原始變量的主成分。每個新變量均為原始變量的線性組合。11Z=AX12第一主成分在所有Zi中最大13第二主成分……理論上主成分個數最多為m個(指標個數)實際工作中確定的主成分個數總是小于m個在所有Zi中為第2大。無關,互相垂直:數據標準化計算協方差矩陣求協方差矩陣特征值和特征向量求成分的累積貢獻率求第n個主成分的表達式主成分分析步驟主成分分析五步走三、主成分的求法及性質15三、主成分的求法及性質16(一)主成分的求法

1.對各原始指標值進行標準化為了方便,仍用Xij表示Xij’。17標準化后的數據矩陣X=182.

求出X1,X2,…,Xm

的相關矩陣RR=Cov(X)

=19Pearson相關系數

標準化后的協方差協方差203.

求出矩陣R的全部特征值(eigenvalue)

i,

第i個主成分的組合系數ai1,ai2,

,aim滿足方程組:(r11-

i)ai1+r12ai2+

+r1maim=0

r21ai1+(r22-

i)ai2+

+r2maim=0

rm1

ai1+rm2ai2+

+(rmm-

i)aim=0

21(r11-

i)ai1+r12ai2+

+r1maim=0

r21ai1+(r22-

i)ai2+

+r2maim=0

rm1

ai1+rm2ai2+

+(rmm-

i)aim=0

i為矩陣R的第i個特征值,共有m個非負特征值,由大到小的順序排列為:

1≥

2≥

m≥0

i=Var(Zi)224.由以上方程組,求出相應于特征值

i的特征向量(eigenvector)(ai1,ai2,

,aim)’23(二)主成分的性質

1.各主成分互不相關

242.主成分的貢獻率與累積貢獻率

(原始指標值標準化)(指標個數)貢獻率累積貢獻率253.主成分個數的選?。?)前k個主成分的累積貢獻率>70%。(2)主成分Zi的特征值

i≥

1。(3)結合專業知識判斷。4.因子載荷:用來了解主成分與原始數值的關系(第i主成分Zi與第j原始指標Xi間相關系數)

265.樣品的主成分得分四、SPSS過程以咱們入學時成績為例,介紹如何利用SPSS軟件實現主成分分析。專業政治英語數學專業課總分16559941143321625167127307164656910029816040751222971564377107283..輸出結果方差貢獻率累積貢獻率主成分系數矩陣(因子負荷量)各主成分在變量上的載荷,可得到主成分表達式。但是變量是標準化后的變量只有第一個的特征根大于1,只提取了1個主成分,第1個主成分方差占總方差的77%31五、主成分分析的應用

1.對原始指標進行綜合以互不相關的較少個綜合指標反應眾多原始指標提供的信息。

主成分回歸(解決多元共線問題)。

2.進行綜合評價

323.進行探索性分析利用因子載荷陣,找出影響各綜合指標的主要原始指標。

4.對樣品進行分類利用主成分得分對樣品進行分類:因子分析部分一、因子分析基本思想從分析多個可觀測的原始指標的相關關系入手,找到支配這種相關關系的有限個不可觀測的潛在變量。是多元分析中處理降維的一種統計方法。34

specificfactor

commonfactor35Xi:觀測指標(標準化數據)Fi:公因子ei:特殊因子aij:因子載荷(計算關鍵項)36X=AF+e373839三、因子模型的性質

矩陣A的統計意義1.公共度(共性方差)40因子的共性方差412.因子貢獻與因子貢獻率矩陣A第j列元素反映了第j個公因子Fj對所有原始指標的影響;數據標準化后全部原始指標的總方差為指標個數m。Fj對原始指標的方差貢獻率42各因子的貢獻433.因子載荷及因子載荷陣A44四、因子載荷陣的求解及計算步驟

1.

收集原始數據并整理為下表452.對各指標進行標準化3.求指標間的相關系數矩陣RX4.求指標間的約相關系數矩陣R*

(1)R*的非對角線元素與相關矩陣RX的非對角線元素相等

(2)R*的對角線元素為共性方差465.求出約關系數矩陣R*所有大于零的特征值及相應的特征向量6.寫出因子載荷陣A,得出原始指標X的公因子表達式47要求:1.

保留公因子個數q小于指標個數m,原則:

j≥1

前k個公因子累積貢獻率≥70%2.

各共性方差接近于1。3.

各原始指標在同一公因子Fj上的因子載荷之間的差別應盡可能大。483.主成分分析與因子分析間的關系(1)兩者的分析重點不一致

Z=AX主成分為原始變量線性組合,重點在綜合原始變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論