




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計建模─多元分析主成分分析和因子分析
成績數據(student.sav)100個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。SPSS數據形式從本例可能提出的問題目前的問題是,能否把這個數據的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能否利用找到的綜合變量來對學生排序或據此進行其他分析呢?需要高度概括在多變量之中,有很多是相關的。人們希望能夠找出它們的少數“代表”來對它們進行描述。需要把這種有很多變量的數據進行高度概括。兩種把變量維數降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。下面利用主成分分析成績數據。降維問題例中數據點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。降維問題先假定只有二維,即只有兩個變量,由橫坐標和縱坐標所代表;如果這些數據形成一個橢圓形狀的點陣,該橢圓有一個長軸和一個短軸。在短軸方向上數據變化很少;在極端的情況,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。橢圓的長短軸當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數據的主要變化,而代表短軸的變量就描述了數據的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。橢圓的長短軸如果長軸變量代表了數據包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓的長短軸相差得越大,降維也越有道理。主軸和主成分多維變量的情況和二維類似,也有高維的橢球,只不過不那么直觀罷了。首先把高維橢球的主軸找出來,再用代表大多數數據信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。主軸和主成分和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。
主成分之選取選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。主成分分析的數學要尋找方差最大的方向。即,使向量X的線性組合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的樣本相關陣R來近似.要尋找向量a使得a’Ra最大這涉及相關陣和特征值?;仡櫼幌掳?選擇幾個主成分呢?要看“貢獻率.”對于我們的數據,SPSS輸出為這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數據相關陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。特征值的貢獻還可以從SPSS的所謂碎石圖看出怎么解釋這兩個主成分。主成分是原始六個變量的線性組合。這由下表給出。
這里每一列代表一個主成分作為原來變量線性組合的系數(比例)。比如第一主成分為數學、物理、化學、語文、歷史、英語這六個變量的線性組合,系數(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數稱為主成分載荷(loading),它表示主成分和相應的原先變量的相關系數。比如y1表示式中x1的系數為-0.806,這就是說第一主成分和數學變量的相關系數為-0.806。相關系數(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸?,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關了??梢园训谝缓偷诙鞒煞值妮d荷點出一個二維圖以直觀地顯示它們如何解釋原來的變量的。這個圖叫做載荷圖。因子分析主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。因子分析是事先確定要找幾個成分,這里叫因子(factor)。這使得在數學模型上,因子分析和主成分分析有不少區別。而且因子分析的計算也復雜得多。根據因子分析模型的特點,它還多一道工序:因子旋轉(factorrotation);這個步驟可以使結果更好。對于計算機,因子分析并不費事。從輸出的結果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關系數。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。主成分分析與因子分析的公式上的區別主成分分析因子分析(m<p)因子得分對于我們的數據,SPSS因子分析輸出為這個表說明六個變量和因子的關系。為簡單記,我們用x1,x2,x3,x4,x5,x6來表示math(數學),phys(物理),chem(化學),literat(語文),history(歷史),english(英語)等變量。這樣因子f1和f2與這些原變量之間的關系是(注意,和主成分分析不同,這里把成分(因子)寫在方程的右邊,把原變量寫在左邊;但相應的系數還是主成分和各個變量的線性相關系數,也稱為因子載荷):這里,第一個因子主要和語文、歷史、英語三科有很強的正相關;而第二個因子主要和數學、物理、化學三科有很強的正相關。因此可以給第一個因子起名為“文科因子”,而給第二個因子起名為“理科因子”。從這個例子可以看出,因子分析的結果比主成分分析解釋性更強。這些系數所形成的散點圖(在SPSS中也稱載荷圖)為可以直觀看出每個因子代表了一類學科計算因子得分可以根據輸出算出每個學生的第一個因子和第二個因子的大小,即算出每個學生的因子得分f1和f2。該輸出說明第一和第二主因子為(習慣上用字母f來表示因子)可以按照如下公式計算,該函數稱為因子得分(factorscore)。人們可以根據這兩套因子得分對學生分別按照文科和理科排序。當然得到因子得分只是SPSS軟件的一個選項。注意事項
因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。如果原始變量都本質上獨立,那么降維就可能失敗。數據越相關,降維效果就越好。分析結果時與問題的性質、選取的原始變量以及數據的質量等都有關系。在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。SPSS實現(因子分析與主成分分析)選Analyze-DataReduction-Factor進入主對話框;把math、phys、chem、literat、history、english選入Variables,然后點擊Extraction,在Method選擇一個方法(如果是主成分分析,則選PrincipalComponents),其余選項可以隨意,比如畫碎石圖選Screeplot,另外在Extract選項可以按照特征值的大小選主成分(或因子),也可以選定因子的數目;之后回到主對話框(用Continue)。然后點擊Rotation,在該對話框中的Method選擇旋轉方法(如是主成分分析就選None).在Display選Rotatedsolution和Loadingplot(以輸出載荷圖);之后回到主對話框(用Continue)。若計算因子得分點擊Scores,選擇Saveasvariables和計算因子得分的方法;要想輸出ComponentScoreCoefficientMatrix表,就要選擇Displayfactorscorecoefficientmatrix;之后回到主對話框(用Continue)。這時點OK即可。聚類分析
分類物以類聚、人以群分;但根據什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。飲料數據(drink.sav)16種飲料如何分類?根據事物本身的特性研究個體分類的方法,原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。不一定事先假定有多少類,完全可以按照數據本身的規律來分類。按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。
k-均值聚類k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類。假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。然后,根據和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數太多了)。下面用飲料例的數據來做k-均值聚類。假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點
根據需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。SPSS實現(聚類分析)K-均值聚類以數據drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在NumberofClusters處選擇3(想要分的類數),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數據陣進行轉置。分層聚類分層聚類或系統聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。對于飲料聚類。SPSS輸出為“冰柱圖”(icicle)聚類要注意的問題聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。
聚類要注意的問題另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結果可以得到任何可能數量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能的近,并且分類結果還
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB31/T 73-2020水泥粉磨系統運行管理與節能監測
- DB31/T 571-2011人才測評服務規范
- DB31/T 488-2019地理標志產品奉賢黃桃
- DB31/T 384-2014地理標志產品崇明老白酒
- DB31/T 375-2022柑橘栽培技術規范
- DB31/T 1400-2023藥品生產全過程數字化追溯體系建設和運行規范
- DB31/T 1097-2018行政審批中介服務指南編制指引
- 2025倉庫場地租賃合同書范本
- 2024年智能體脂秤資金需求報告代可行性研究報告
- 2024年海洋測量儀器資金需求報告代可行性研究報告
- 2025甘肅陜煤集團韓城煤礦招聘250人筆試參考題庫附帶答案詳解
- 2025年社區工作的理論與實務考試題及答案
- 《設計課件:構建高效數據集教程》
- 2025江蘇中考:歷史高頻考點
- 普通測量學試題及答案
- 國家開放大學2025年《創業基礎》形考任務3答案
- 醫療器械網絡銷售質量管理規范宣貫培訓課件2025年
- 語文課程資源的開發與利用
- 2024年09月四川天府新區人民醫院招聘6人筆試歷年專業考點(難、易錯點)附帶答案詳解
- GB/T 26354-2025旅游信息咨詢服務
- 導數??碱}型全歸納(七大題型)解析版-2025年高考數學復習熱點題型專項訓練(新高考)
評論
0/150
提交評論