主成分分析和因子分析課件_第1頁
主成分分析和因子分析課件_第2頁
主成分分析和因子分析課件_第3頁
主成分分析和因子分析課件_第4頁
主成分分析和因子分析課件_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、STATA 從入門到精通第第13章章 主成分分析和因子分析主成分分析和因子分析Page 2STATA從入門到精通從入門到精通13.1 主成分分析主成分分析n13.1.1 13.1.1 主成分分析的基本原理主成分分析的基本原理n13.1.2 13.1.2 主成分分析的數學模型主成分分析的數學模型n13.1.3 13.1.3 主成分分析的步驟主成分分析的步驟n13.1.4 13.1.4 主成分分析的主成分分析的StataStata命令命令Page 3STATA從入門到精通從入門到精通n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n考察

2、多個變量間相關性一種多元統計方法考察多個變量間相關性一種多元統計方法n研究如何通過少數幾個主成分研究如何通過少數幾個主成分(principal component)(principal component)來來解釋多個變量間的內部結構。即從原始變量中導出少數解釋多個變量間的內部結構。即從原始變量中導出少數幾個主分量,使它們盡可能多地保留原始變量的信息,幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關且彼此間互不相關n主成分分析的目的:數據的壓縮;數據的解釋主成分分析的目的:數據的壓縮;數據的解釋l常被用來尋找判斷事物或現象的綜合指標,并對綜常被用來尋找判斷事物或現象的綜合指標,

3、并對綜合指標所包含的信息進行適當的解釋合指標所包含的信息進行適當的解釋什么是主成分分析?什么是主成分分析?(principal component analysis)Page 4STATA從入門到精通從入門到精通n對這兩個相關變量所攜帶的信息對這兩個相關變量所攜帶的信息( (在統計上信息往往是指在統計上信息往往是指數據的變異數據的變異) )進行濃縮處理進行濃縮處理n假定只有兩個變量假定只有兩個變量x x1 1和和x x2 2,從散點圖可見兩個變量存在相,從散點圖可見兩個變量存在相關關系,這意味著兩個變量提供的信息有重疊關關系,這意味著兩個變量提供的信息有重疊主成分分析的基本思想主成分分析的基本

4、思想 (以兩個變量為例以兩個變量為例)n如果把兩個變量用一如果把兩個變量用一個變量來表示,同時個變量來表示,同時這一個新的變量又盡這一個新的變量又盡可能包含原來的兩個可能包含原來的兩個變量的信息,這就是變量的信息,這就是降維的過程降維的過程Page 5STATA從入門到精通從入門到精通n數學上的處理是將原始的數學上的處理是將原始的p p個變量作線性組合,作為新的個變量作線性組合,作為新的變量變量n設設p p個原始變量為個原始變量為 ,新的變量,新的變量( (即主成分即主成分) )為為 ,主成分和原始變量之間的關系表示為,主成分和原始變量之間的關系表示為主成分分析的數學模型主成分分析的數學模型p

5、xxx,21pyyy,21ppppppppppxaxaxayxaxaxayxaxaxay22112222121212121111主成分分析的數學模型主成分分析的數學模型aij為第為第i個主成分個主成分yi和原和原來的第來的第j個變量個變量xj之間的之間的線性相關系數,稱為載線性相關系數,稱為載荷荷(loading)。比如,。比如,a11表示第表示第1主成分和原來的主成分和原來的第第1個變量之間的相關系個變量之間的相關系數,數,a21表示第表示第2主成分主成分和原來的第和原來的第1個變量之間個變量之間的相關系數的相關系數Page 6STATA從入門到精通從入門到精通n對原來的對原來的p p個指標

6、進行標準化,以消除變量在水平和量綱個指標進行標準化,以消除變量在水平和量綱上的影響上的影響n根據標準化后的數據矩陣求出相關系數矩陣根據標準化后的數據矩陣求出相關系數矩陣n求出協方差矩陣的特征根和特征向量求出協方差矩陣的特征根和特征向量n確定主成分,并對各主成分所包含的信息給予適當的解確定主成分,并對各主成分所包含的信息給予適當的解釋釋主成分分析的步驟主成分分析的步驟Page 7STATA從入門到精通從入門到精通Stata命令命令n pca、pcamatn estatn screeplotn scoreplot、loadingplotn rotaten predictPage 8STATA從入門

7、到精通從入門到精通【例例】根據根據20082008年一季度滬深兩市農業板上市公司年一季度滬深兩市農業板上市公司的的9 9項主要指標數據,項主要指標數據,進行主成分分析,找出主成分并進行適當的解釋進行主成分分析,找出主成分并進行適當的解釋主成分分析主成分分析 (實例分析實例分析)基本情況基本情況公司成長性指標公司成長性指標公司盈利能力性指標公司盈利能力性指標公司股本擴張能力指標公司股本擴張能力指標公司名稱ROA主營收入增長率凈利潤增長率主營業務利潤率ROEEPS每股凈資產每股公積金總資產增長率禾嘉股份0.0630.2320.8220.2580.0090.011.110.050亞盛集團-0.008

8、0.1610.7090.1430.0060.0061.1440.0060.047冠農股份0.4380.7550.2840.1070.0030.0041.6210.4210.096St中農-0.02-0.4210.9830.209001.5650.757-0.206敦煌種業0.112-0.1587.1440.3670.0250.0773.0961.988-0.057新農開發0.2770.041-2.3760.251-0.005-0.0163.461.860.392香梨股份0.107-0.0542.101-0.1480.0120.032.511.516-0.234新賽股份0.820.1940.05

9、80.1130.020.1013.832.2850.392Page 9STATA從入門到精通從入門到精通Stata的輸出結果的輸出結果estat smc 變量之間的存在較強的相關關系,適合作主成分分析變量之間的存在較強的相關關系,適合作主成分分析 Page 10STATA從入門到精通從入門到精通Stata的輸出結果的輸出結果(選擇主成分選擇主成分)該表是選則主成分的主要依據該表是選則主成分的主要依據Page 11STATA從入門到精通從入門到精通n“Initial EigenvaluesInitial Eigenvalues”( (初始特征根初始特征根) ) l實際上就是本例中實際上就是本例中

10、的的9 9個個主軸的長度主軸的長度l特征根反映了主成分對原始變量的影響程度,表示特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息引入該主成分后可以解釋原始變量的信息l特征根又叫特征根又叫方差方差,某個特征根占總特征根的比例稱,某個特征根占總特征根的比例稱為主成分方差貢獻率為主成分方差貢獻率l設特征根為設特征根為 ,則第,則第i i個主成分的方差貢獻率為個主成分的方差貢獻率為l比如,第一個主成分的特征根為比如,第一個主成分的特征根為3.543543.54354,占總特征占總特征根的的比例根的的比例( (方差貢獻率方差貢獻率) )為為39.37%39.37%,這表示

11、第一個,這表示第一個主成分解釋了主成分解釋了原始原始9 9個變量個變量39.37%39.37%的信息,可見第一的信息,可見第一個主成分對原來個主成分對原來的的9 9個個變量解釋變量解釋的還不是很充分的還不是很充分根據什么選擇主成分?根據什么選擇主成分?piii1Page 12STATA從入門到精通從入門到精通n根據主成分貢獻率根據主成分貢獻率l一般來說,主成分的累計方差貢獻率達到一般來說,主成分的累計方差貢獻率達到80%80%以上的以上的前幾個主成分,都可以選作最后的主成分前幾個主成分,都可以選作最后的主成分l比如比如表中前表中前3 3個個主成分的累計方差貢獻率主成分的累計方差貢獻率為為78.

12、13%78.13%n根據特特征根的大小根據特特征根的大小l一般情況下,當特征根小于一般情況下,當特征根小于1 1時,就不再選作主成分時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大量解的釋力度大l比如比如表中表中除除前前3 3個個外,其他主成分的特征根都小于外,其他主成分的特征根都小于1 1。所以只所以只選擇選擇了了3 3個主成分個主成分根據什么選擇主成分?根據什么選擇主成分?Page 13STATA從入門到精通從入門到精通nStataStata還提供了一個更為還提供了一個更為直觀的圖形工具來幫助選直觀的圖形工具來幫助選

13、擇 主 成 分 , 即 碎 石 圖擇 主 成 分 , 即 碎 石 圖(Scree Plot)(Scree Plot)n從碎石圖可以看到從碎石圖可以看到9 9個主個主軸長度變化的趨勢軸長度變化的趨勢n實踐中,通常結合具體情實踐中,通常結合具體情況,選擇碎石圖中變化趨況,選擇碎石圖中變化趨勢出現拐點的前幾個主成勢出現拐點的前幾個主成分作為原先變量的代表,分作為原先變量的代表,該例中選擇前該例中選擇前3 3個主成分個主成分即可即可根據什么選擇主成分?根據什么選擇主成分? (Scree Plot)Page 14STATA從入門到精通從入門到精通怎樣解釋主成分?怎樣解釋主成分?主成分的因子載荷矩陣主成分

14、的因子載荷矩陣 l表表1中的每一列表示一個主成分作為原來變量線性組中的每一列表示一個主成分作為原來變量線性組合的系數,也就是主成分分析模型中的系數合的系數,也就是主成分分析模型中的系數aijl比如,第一主成分所在列的系數比如,第一主成分所在列的系數-0.0364表示第表示第1個個主成分和原來的第一個變量主成分和原來的第一個變量(ROA)之間的線性相關之間的線性相關系數。這個系數越大,說明主成分對該變量的代表系數。這個系數越大,說明主成分對該變量的代表性就越大性就越大Page 15STATA從入門到精通從入門到精通n 載荷圖(Loading Plot)直觀顯示主成分對原始9變量的解釋情況n 圖中

15、橫軸表示第一個主成分與原始變量間的相關系數;縱軸表示第二個主成分與原始變量之間的相關系數n 每一個變量對應的主成分載荷就對應坐標系中的一個點n 第一個主成分很充分地解釋了原始的后4個變量(與每個原始變量都有較強的正相關關系),第二個主成分則較好地var2,var3,var5,var6這2個變量(與它們的相關關系較高),而與其他變量的關系則較弱(相關系數的點靠近坐標軸)怎樣解釋主成分?怎樣解釋主成分? (Loading Plot)Page 16STATA從入門到精通從入門到精通13.2 因子分析因子分析n13.2.1 13.2.1 因子分析的基本原理因子分析的基本原理n13.2.2 13.2.2

16、 因子因子分析的數學模型分析的數學模型n13.2.3 13.2.3 因子分析的步驟因子分析的步驟n13.2.4 13.2.4 因子分析的因子分析的StataStata命令命令Page 17STATA從入門到精通從入門到精通n因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例n簡言之,因子分析是通過對變量之間關系的研究,找出能綜合原始變量的少數幾個因子,使得少數因子能夠反映原始變量的絕大部分信息,然后根據相關性的大小將原始變量分組,使得組內的變量之間相關性較高,而不同組的變量之間相關性較低。因此,因子分析屬于多元統計中處理

17、降維的一種統計方法,其目的就是要減少變量的個數,用少數因子代表多個原始變量什么是因子分析?什么是因子分析? (factor analysis)Page 18STATA從入門到精通從入門到精通n原始的原始的p個變量表達為個變量表達為k個因子的線性組合變量個因子的線性組合變量n設設p個原始變量為個原始變量為 ,要尋找的,要尋找的k個因子個因子(kp)為為 ,主成分和原始變量之間的關系表示為,主成分和原始變量之間的關系表示為因子分析的數學模型因子分析的數學模型pxxx,21kfff,21因子分析的數學模型因子分析的數學模型系數系數aij為第個為第個i變量與第變量與第k個個因子之間的線性相關系數,因子

18、之間的線性相關系數,反映變量與因子之間的相反映變量與因子之間的相關 程 度 , 也 稱 為 載 荷關 程 度 , 也 稱 為 載 荷(loading)。由于因子出現。由于因子出現在每個原始變量與因子的在每個原始變量與因子的線性組合中,因此也稱為線性組合中,因此也稱為公因子。公因子。 為特殊因子,代為特殊因子,代表公因子以外的因素影響表公因子以外的因素影響pkpkpppkkkkfafafaxfafafaxfafafax2211222221212112121111Page 19STATA從入門到精通從入門到精通n共同度量共同度量(Communality)(Communality)n因子的方差貢獻率因子的方差貢獻率 因子分析的數學模型因子分析的數學模型(共同度量共同度量Communality和公因子的方差貢獻率和公因子的方差貢獻率 )21(122kjahpiiji, )21(122piagkjijj

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論