




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第十二章 主成分分析主成分分分析也稱作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降維的思想,在損失較少信息的前提下把多個指標轉化為較少的綜合指標。轉化生成的綜合指標即稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分互不相關。Stata對主成分分析的主要內容包括:主成分估計、主成分分析的恰當性(包括負偏協方差矩陣和負偏相關系數矩陣、KMO(Kaiser-Meyer-Olkin)抽樣充分性、復相關系數、共同度等指標測度)、主成分的旋轉、預測、各種檢驗、碎石圖、得分圖、載荷圖等。 主成分的模型表達式為:其中,a稱為得分,b稱為載荷。主成分分析主要的
2、分析方法是對相關系數矩陣(或協方差矩陣)進行特征值分析。Stata中可以通過負偏相關系數矩陣、負相關系數平方和KMO值對主成分分析的恰當性進行分析。負偏相關系數矩陣即變量之間兩兩偏相關系數的負數。非對角線元素則為負的偏相關系數。如果變量之間存在較強的共性,則偏相關系數比較低。因此,如果矩陣中偏相關系數較高的個數比較多,說明某一些變量與另外一些變量的相關性比較低,主成分模型可能不適用。這時,主成分分析不能得到很好的數據約化效果。Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關關系的強弱的重要指標,是通過比較兩個變量的相關系數與偏相關系數得到的。KMO介于0于1之間。KM
3、O越高,表明變量的共性越強。如果偏相關系數相對于相關系數比較高,則KMO比較低,主成分分析不能起到很好的數據約化效果。根據Kaiser(1974),一般的判斷標準如下:0.00-0.49,不能接受(unacceptable);0.50-0.59,非常差(miserable);0.60-0.69,勉強接受(mediocre);0.70-0.79,可以接受(middling);0.80-0.89,比較好(meritorious);0.90-1.00,非常好(marvelous)。SMC即一個變量與其他所有變量的復相關系數的平方,也就是復回歸方程的可決系數。SMC比較高表明變量的線性關系越強,共性越
4、強,主成分分析就越合適。成分載荷、KMO、SMC等指標都可以通過extat命令進行分析。多元方差分析是方差分析在多元中的擴展,即模型含有多個響應變量。本章介紹多元(協)方差分析以及霍特林(Hotelling)均值向量T檢驗。12.1 主成分估計Stata可以通過變量進行主成分分析,也可以直接通過相關系數矩陣或協方差矩陣進行。(1)sysuse auto,clearpca trunk weight length headroompca trunk weight length headroom, comp(2) covariance(2)webuse bg2,clearpca bg2cost*,
5、vce(normal)12.2 Estatestat給出了幾個非常有用的工具,包括KMO、SMC等指標。webuse bg2,clearpca bg2cost*, vce(normal)estat antiestat kmoestat loadingsestat residualsestat smcestat summarize12.3 預測Stata可以通過predict預測變量得分、擬合值和殘差等。webuse bg2,clearpca bg2cost*, vce(normal)predict score fit residual q (備注:q代表殘差的平方和)12.4 碎石圖碎石圖是判
6、斷保留多少個主成分的重要方法。命令為screeplot。webuse bg2,clearpca bg2cost*, vce(normal)screeplot12.5 得分圖、載荷圖得分圖即不同主成分得分的散點圖。命令為scoreplot。webuse bg2,clearpca bg2cost*, vce(normal)scoreplot載荷圖即不同主成分載荷的散點圖。命令為loadingplot。webuse bg2,clearpca bg2cost*, vce(normal)loadingplot12.6 旋轉對載荷進行旋轉的命令格式為rotate。webuse bg2,clearpca b
7、g2cost*, vce(normal)rotate例:對中國30個省市自治區經濟發展基本情況的八項指標主成分分析,原始數據如下表:省份GDP (億元)居民消費水平(元) 固定資產投資(億元) 職工平均工資(元)貨物周轉量 (億噸公里) 居民消費價格指數 (上年100) 商品零售價格指數 (上年100) 工業總產值 (億元) areax1x2x3x4x5x6x7x8 北 京10488.03203463814.756328758.9105.1104.410413 天 津6354.38140003389.8417482703.4105.4105.112503 河 北16188.6165708866
8、.6247565925.5106.2106.723031 山 西6938.7361873531.2258282562.2107.2107.210024 內蒙古7761.881085475.4261143658.7105.7104.78740.2 遼 寧13461.57962510019.1277297033.9104.6105.324769 吉 林6424.0675915038.9234861157.8105.1106.28406.9 黑龍江831070393656230461690.9105.6105.87624.5 上 海1369815656516029.8105
9、.8105.325121 江 蘇30312.611101315300.6316674300.9105.4104.967799 浙 江21486.92138939323341464974.9105106.340832 安 徽8874.1763776747263635843.2106.2106.311162 福 建10823.11103615207.7257022396.2104.6105.715213 江 西6480.3357534745.4210002285.5106106.18499.6 山 東31072.06957315435.92640410107.8105.3104.962959 河
10、南18407.78587710490.6248165165.1107107.526028 湖 北11330.3874065647227392526.4106.3106.313455 湖 南11156.6471455534248702349.8106105.611553 廣 東35696.461439010868.7331104428.4105.610665425 廣 西7171.5861033756.4256602079107.8107.66072 海 南1459.236550705.421864597.7106.9106.71103.1 重 慶5096.6698353979.62698514
11、90.3105.61055755.9 四 川12506.2560727127.8250381578.7105.1105.314762 貴 州3333.444261864.524602805.3107.6107.23111.1 云 南5700.145533435.924030821.3105.7106.15144.6 西 藏395.913504309.94728035.5105.7103.948.19 陜 西6851.3262904614.4259422027106.4106.97480.8 甘 肅3176.1148691712.8240171594.9108.2107.93667.5 青 海9
12、61.535830583.230983335.7110.1110.61103.1 寧 夏1098.517193828.930719703.6108.5108.51366.5 新 疆4203.4155422260246871273108.1108.54276.1數據 :來源于2009年中國統計年鑒程序:clear*定義變量的標簽label var area 省份label var x1 GDP (億元)label var x2 居民消費水平(元)label var x3 固定資產投資(億元)label var x4 職工平均工資(元)label var x5 貨物周轉量 (億噸公里)label
13、var x6 居民消費價格指數 (上年100) label var x7 商品零售價格指數 (上年100)label var x8 工業總產值 (億元)describepca x1-x8 /*主成分估計*/estat kmo /*KMO檢驗,越高越好*/estat smc /*SMC檢驗,值越高越好*/screeplot /* 碎石圖(特征值等于1處的水平線標示保留主成分的分界點)*/predict score fit residual q /*預測變量得分、擬合值和殘差以及殘差的平方和*/predict f1 f2 fpredict q1 q2 q3scoreplot,mlabel(area
14、) yline(0) xline(0) /*得分圖1*/scoreplot,xtitle(經濟社會總量) ytitle(人民生活水平) /mlabel(area) yline(0) xline(0) /*得分圖*/scatter f2 f3,xtitle(人民生活水平) ytitle(物價水平) /mlabel(area) yline(0) xline(0) /*得分圖*/scoreplot, factors(3) mlabel(area) /*得分圖*/scoreplot,combined factors(3) mlabel(area) yline(0) xline(0) /*得分圖*/lo
15、adingplot , yline(0) xline(0)/*載荷圖 */loadingplot , combined factors(3) yline(0) xline(0)/*載荷圖 */rotate /*旋轉*/分析:先對數據進行標準化處理后,接著進行主成分分析,可以得到:表:R的特征值和特征向量主成分特征值方差貢獻率累計貢獻率14.254882.502580.531921.75229.5375380.750931.21475.7609160.90274.453839.2607010.95955.193137.1241410.98366.0689962.02734640.99227.04
16、16498.02119450.99748.0204553.1.0000從表中看到,前3個特征值累計貢獻率已達90.27%,說明前3個主成分基本包含了全部指標具有的信息,我們取前3個特征值。通過對載荷矩陣進行旋轉,可得到,相應的特征向量,見下表:第一、第二、第三特征值向量 第一特征向量第二特征向量第三特征向量x1_s0.42490.30640.1079x2_s0.3217-0.44670.3101x3_s0.40570.3855-0.0181x4_s0.1856-0.61000.2536x5_s0.3520-0.05100.3714x6_s-0.34440.14270.5784x7_s-0.31
17、180.27670.5769x8_s0.42090.29380.1495因而前三個主成分為:第一主成分: F10.4249x1+0.3217x2_s+0.4057x3_s+0.1856x4_s+0.3520 x5_s-0.3444x6_s-0.3118x7_s+0.4209x8_s第二主成分: F20.3064x1-0.4467x2_s+0.3855x3_s-0.6100 x4_s-0.0510 x5_s+0.1427x6_s+0.2767x7_s+0.2938x8_s第三主成分: F30.1079x1+0.3101x2_s-0.0181x3_s+0.2536x4_s+0.3714x5_s-0
18、.5784x6_s+0.5769x7_s+0.1495x8_s在第一主成分的表達式中第一、第三、第八項指標的系數較大,這三項指標起主要作用,我們可以把第一主成分看成是由國內生產總值、固定資產投資、工業總產值所刻劃的反映經濟社會總量的綜合指標;在第二主成分中,第二、第三、第四項指標的影響大,且第二、第四項的影響較大,因此可以把第二主成分看成是由居民消費水平、職工平均工資表示的反映人民生活水平的綜合指標;在第三主成分中,第六、第七項指標大于其余的指標,可看成是受居民消費價格指數、商品零售價格指數的影響,反映物價水平的綜合指標。在這次的主成分分析里面,我們可以進行些檢驗以驗證我們分析的效果,通過KMO檢驗和SMC檢驗,得到了下面的檢驗值:變量的KMO、SMC值表變量KMO值SMC值x1_s0.74230.9656x2_s0.53610.8366x3_s0.77060.9276x4_s0.47370.7647x5_s0.67940.6515x6_s0.54670.8837x7_s0.54820.8627x8_s0.76920.9591合計0.6447-Kaiser-Meyer-Olkin抽樣充分性測度也是用于測量變量之間相關關系的強弱的重要指標,是通過比較兩個變量的相關系數與偏相關系數得到的。KMO介于0于1之間。KMO越高,表明變量的共性越強。如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 業務咨詢費合同協議書
- 補充耕地委托協議書
- 2025年職業技能鑒定國家題庫維修電工中級理論知識題庫及答案(一)
- DB36-T1821-2023-山藥扦插繁種技術規程-江西省
- DB36-T1749.1-2023-家具企業物料命名與編碼規則第1部分:木家具-江西省
- DB36-T1641-2022-養老機構突發事件應急預防與處置規程-江西省
- 2025年廣東省深圳市三年級上學期期中物理試卷(含答案)-其他專項認證考試解析
- 2025年專升本藝術概論模擬試卷:藝術批評理論與實踐應用題解析(2025年春季版)
- 肝膿腫護理病歷
- 碑林區2024-2025學年四年級上學期期末數學試卷:幾何圖形知識系統復習
- 2025年遼寧省盤錦市中考數學二模試卷
- 完整版新修訂《厲行節約反對浪費條例》(課件)
- 貴州國企招聘2025貴州省水利投資(集團)有限責任公司招聘84人筆試參考題庫附帶答案詳解
- 【8生 會考】2022-2024年安徽省初中(八年級)中考初二會考生物試卷(3年真題)
- 2025年網絡與信息安全專業考試試卷及答案
- 2024年河北承德辰飛供電服務有限公司招聘真題
- 滬教版八年級化學(下冊)期末試卷及答案
- DL-T-1878-2018燃煤電廠儲煤場盤點導則
- 小小科學家《物理》模擬試卷A(附答案)
- 體能科學訓練方法智慧樹知到期末考試答案2024年
- 四川民歌智慧樹知到期末考試答案2024年
評論
0/150
提交評論