



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、因子分析基礎理論知識1 概念因子分析( Factor analysis) :就是用少數幾個因子來描述許多指標或因素之間的聯系,以較少幾個因子來反映原資料的大部分信息的統計學分析方法。從數學角度來看,主成分分析是一種化繁為簡的降維處理技術。主成分分析( Principal component analysis) :是因子分析的一個特例,是使用最多的因子提取方法。它通過坐標變換手段,將原有的多個相關變量,做線性變化,轉換為另外一組不相關的變量。選取前面幾個方差最大的主成分,這樣達到了因子分析較少變量個數的目的,同時又能與較少的變量反映原有變量的絕大部分的信息。兩者關系:主成分分析(PCA)和因子分
2、析(FA)是兩種把變量維數降低以便于描述、 理解和分析的方法,而實際上主成分分析可以說是因子分析的一個特例。2 特點( 1)因子變量的數量遠少于原有的指標變量的數量,因而對因子變量的分析能夠減少分析中的工作量。( 2)因子變量不是對原始變量的取舍,而是根據原始變量的信息進行重新組構,它能夠反映原有變量大部分的信息。( 3)因子變量之間不存在顯著的線性相關關系,對變量的分析比較方便,但原始部分變量之間多存在較顯著的相關關系。( 4)因子變量具有命名解釋性,即該變量是對某些原始變量信息的綜合和反映。在保證數據信息丟失最少的原則下,對高維變量空間進行降維處理(即通過因子分析或主成分分析)。顯然,在一
3、個低維空間解釋系統要比在高維系統容易的多。3 類型根據研究對象的不同,把因子分析分為R 型和 Q 型兩種。當研究對象是變量時,屬于R 型因子分析;當研究對象是樣品時,屬于Q 型因子分析。但有的因子分析方法兼有R 型和 Q 型因子分析的一些特點,如因子分析中的對應分析方法,有的學者稱之為雙重型因子分析,以示與其他兩類的區別。4 分析原理假定:有n 個地理樣本,每個樣本共有p個變量,構成一個 nx p階的地理數據矩陣x11x12x1px21x22x2pxn1xn2xnp當 p 較大時, 在 p 維空間中考察問題比較麻煩。這就需要進行降維處理,即用較少幾個綜合指標代替原來指標,而且使這些綜合指標既能
4、盡量多地反映原來指標所反映的信息,同時它們之間又是彼此獨立的。線性組合:記x1 , x2,,xp為原變量指標,z1, z2,,zm (mWp)為新變量指標(主成分),則其線性組合為:z1l11 x1l 12 x2l1pxpz2l 21 x1l22x2l2pxpzml m1 x1l m2x2l mp xp是原變量在各主成分上的載荷z1l11 x1l 12 x2l1pxpz2l 21 x1l22x2l2pxpzml m1 x1l m2x2l mp xp無論是哪一種因子分析方法,其相應的因子解都不是唯一的,主因子解僅僅是無數因子解中之一。zi 與 zj 相互無關;z1是x1 , x2,,xp的一切線
5、性組合中方差最大者,z2是與z1不相關的x1 , x2 , 的所有線性組合中方差最大者。則,新變量指標 z1, Z2,分別稱為原變量指標的第一, 第二,主成分。Z 為因子變量或公共因子,可以理解為在高維空間中互相垂直的m 個坐標軸。主成分分析實質就是確定原來變量xj (j=1 , 2 , , p)在各主成分zi (i=1 , 2,m)上的荷載lij。從數學上容易知道,從數學上也可以證明,它們分別是相關矩陣的m 個較大的特征值所對應的特征向量。5 分析步驟5.1 確定待分析的原有若干變量是否適合進行因子分析(第一步 )因子分析是從眾多的原始變量中重構少數幾個具有代表意義的因子變量的過程。其潛在的
6、要求:原有變量之間要具有比較強的相關性。因此,因子分析需要先進行相關分析,計算原始變量之間的相關系數矩陣。如果相關系數矩陣在進行統計檢驗時,大部分相關系數均小于 0.3且未通過檢驗,則這些原始變量就不太適合進行因子分析。iir12ri pr21r22r2 pRr p 1r p 2r ppn(XkiXi)(. Xj)k 1rij-m(XkiXi)2(XkjXj)V k 1k 1進行原始變量的相關分析之前,需要對輸入的原始數據進行標準化計算(一般采用標準差標準化方法,標準化后的數據均值為0,方差為1)。SPSS在因子分析中還提供了幾種判定是否適合因子分析的檢驗方法。主要有以下3種:巴特利特球形檢驗
7、(Bartlett Test of Sphericity )反映象相關矩陣檢驗( Anti-image correlation matrix )KMO (Kaiser-Meyer-Olkin )檢驗(1)巴特利特球形檢驗該檢驗以變量的相關系數矩陣作為出發點,它的零假設H0為相關系數矩陣是一個單位陣,即相關系數矩陣對角線上的所有元素都為1,而所有非對角線上的元素都為0,也即原始變量兩兩之間不相關。巴特利特球形檢驗的統計量是根據相關系數矩陣的行列式得到。如果該值較大,且其對應的相伴概率值小于用戶指定的顯著性水平,那么就應拒絕零假設H0,認為相關系數不可能是單位陣,也即原始變量間存在相關性。(2)反
8、映象相關矩陣檢驗該檢驗以變量的偏相關系數矩陣作為出發點,將偏相關系數矩陣的每個元素取反,得到反映象相關矩陣。偏相關系數是在控制了其他變量影響的條件下計算出來的相關系數,如果變量之間存在較多的重疊影響,那么偏相關系數就會較小,這些變量越適合進行因子分析。(3) KMO (Kaiser-Meyer-Olkin )檢驗該檢驗的統計量用于比較變量之間的簡單相關和偏相關系數。KMO值介于0-1 ,越接近1 ,表明所有變量之間簡單相關系數平方和遠大于偏相關系數 平方和,越適合因子分析。其中,Kaiser給出一個 KMO檢驗標準:KMO>0.9 ,非常適合;0.8<KMO<0.9 ,適合;
9、 0.7<KMO<0.8 , 一般;0.6<KMO<0.7 ,不太適合;KMO<0.5 ,不適合。5.2 構造因子變量因子分析中有很多確定因子變量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主軸因子法、極大似然法、最小二乘法等。前者應用最為廣泛。主成分分析法( Principal component analysis ):該方法通過坐標變換,將原有變量作線性變化,轉換為另外一組不相關的變量Zi (主成分)。求相關系數矩陣的特征根入i (入1,入2,,入p>0)和相應的標準正交的特征向量 li;根 據相關系數矩陣的特征根,即公共因子 Zj的方差貢獻
10、(等于因子載荷矩陣 L中第j列各元 素的平方和),計算公共因子Zj的方差貢獻率與累積貢獻率。p-i-(i 1,2, P)kkp1 (i 1,2,p)kk 1主成分分析是在一個多維坐標軸中,將原始變量組成的坐標系進行平移變換,使得新的坐標原點和數據群點的重心重合。新坐標第一軸與數據變化最大方向對應。通過計算特征根(方差貢獻)和方差貢獻率與累積方差貢獻率等指標,來判斷選取公共因子的數量和公共因子(主成分)所能代表的原始變量信息。公共因子個數的確定準則:1)根據特征值的大小來確定,一般取大于 1的特征值對應 的幾個公共因子/主成分。2)根據因子的累積方差貢獻率來確定,一般取累計貢獻率達 85-95%
11、的特征值所對應的第一、第二、第 m (mwp)個主成分。也有學者認為累積方 差貢獻率應在80 %以上。5.3 因子變量的命名解釋因子變量的命名解釋是因子分析的另一個核心問題。經過主成分分析得到的公共因子Z1,Z2,Zm是對原有變量的綜合。在實際的應用分析中,主要通過對載荷矩陣進行分析, 得到因子變量和原有變量之間的關系,從而對新的因子變量進行命名。利用因子旋轉方法能使因子變量更具有可解釋性。aj( 1,2,p)Xia11z1a12Z2X2a21Z1a22Z2a1pZpa2 PzpXmam2Z2ampZpZ1l11x1l12X2l1 pxpZ2l21X1l 22x2l 2 pxpl m1 X1l
12、m2X2lmpxpa11a12.a1ml111l122.l 1 mma21A二a21.a2ml211l212.l2m m.ap1.ap1.apm.Jl p1 1.l p1 2.l . pm v m計算主成分載荷,構建載荷矩陣A。載荷矩陣A中某一行表示原有變量 Xi與公共因子 的相關關系。載荷矩陣 A中某一列表示某一個公共因子能夠解釋的原有變量Xi的信息量。有時因子載荷矩陣的解釋性不太好,通常需要進行因子旋轉,使原有因子變量更具有可解釋性。因子旋轉的主要方法:正交旋轉、斜交旋轉。&1a12a1ml111l12-./ 2.l1m" ma21A二a21.a2 ml 21 , 1l2
13、12.l2m ,= .: m. .ap1ap1 .apm1l p1 X 1l p1 2.1. lpm m正交旋轉和斜交旋轉是因子旋轉的兩類方法。前者由于保持了坐標軸的正交性,因此使用最多。正交旋轉的方法很多,其中以方差最大化法最為常用。方差最大正交旋轉(varimax orthogonal rotation -基本思想:使公共因子的相對負荷的方差之和最大,且保持原公共因子的正交性和公共方差總和不變。可使每個因子上的具有最大載荷的變量數最小,因此可以簡化對因子的解釋。斜交旋轉(oblique rotation -因子斜交旋轉后,各因子負荷發生了變化,出現了兩極分化。各因子間不再相互獨立,而是彼此相關。各因子對各變量的貢獻的總和也發生了改變。因子旋轉的目的是使因子負荷兩極分化,要么接近于0,要么接近于1。從而使原有因子變量更具有可解釋性。5.4 計算因子變量得分因子變量確定以后,對于每一個樣本數據,我們希望得到它們在不同因子上的具體數據值,即因子得分。估計因子得分的方法主要有:回歸法、Bartlette法等。計算因子得分應首先將因子變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文化藝術機構員工離職流程流程
- 學校教師崗位規章制度及職責
- 2025年四年級科學探究活動教學計劃
- 2025年高校輔導員思想教育計劃
- 部編版四年級語文上冊課時安排計劃
- 機器人社團年度發展計劃
- 四年級語文家校合作提升措施
- 金融系統設計質量保證措施
- 農業產品供貨方案及質量保證措施
- 礦山注漿堵水安全技術措施
- 2025年廣東省中考生物試卷真題及答案詳解(精校打印版)
- 住院患者健康宣教的重要性
- 中國汽車傳感器行業發展趨勢及發展前景研究報告2025-2028版
- 2025年高考山東卷化學試題講評及備考策略指導(課件)
- GB/T 25146-2010工業設備化學清洗質量驗收規范
- 三相負荷(380V)及單相(220V)最大供電距離計算表及電壓降計算表
- 國家職業技能標準 (2021年版) 嬰幼兒發展引導員
- 計算機網絡專業畢業論文:網上鮮花銷售系統的設計與實現
- 伯杰氏細菌系統分類學手冊
- 小學閱讀材料:五年級下冊閱讀題及答案--寫景類(7篇)
- 珠海市工傷保險待遇申請表(20110630)
評論
0/150
提交評論