




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第六章主成分分析法主成分分析法是將高維空間變量指標轉化為低維空間變量指標的一種統計方法。由于評價對象往往具有多個屬性指標,較多的變量對分析問題會帶來一定的難度和復雜性。然而,這些指標變量彼此之間常常又存在一定程度的相關性,這就使含在觀測數據中的信息具有一定的重疊性。正是這種指標間的相互影響和重疊,才使得變量的降維成為可能。即在研究對象的多個變量指標中,用少數幾個綜合變量代替原高維變量以達到分析評價問題的目的。當然,這少數指標應該綜合原研究對象盡可能多的信息以減少信息的失真和損失,而且指標之間彼此相互獨立。引言主成分分析,也稱主分量分析,由皮爾遜(Pearson)于1901年提出,后由霍特林(Hotelling)于1933年發展了,這也正是現在多元統計分析中的一種經典統計學觀點。經典統計學家認為主成分分析是確定一個多元正態分布等密度橢球面的主軸,這些主軸由樣本來估計。然而,現代越來越多的人從數據分析的角度出發,用一種不同的觀點來考察主成分分析。這時,不需要任何關于概率分布和基本統計模型的假定。這種觀點實際上是采用某種信息的概念,以某種代數或幾何準則最優化技術對一個數據陣的結構進行描述和簡化。主成分分析方法的主要目的就是通過降維技術把多個變量化為少數幾個主要成分進行分析的統計方法。這些主要成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線性組合。為了使這些主要成分所含的信息互不重迭,應要求它們互不相關。當分析結束后,最后要對主成分做出解釋。當主成分用于回歸或聚類時,就不需要對主成分做出解釋。另外,主成分還有簡化變量系統的統計數字特征的作用。對于任意p個變量,描述它們自身及其相互關系的數字特征包括均值、方差、協方差等,共有個參數。經過主成分分析后,每個新變量的均值和協方差都為零,所以,變量系統的數字特征減少了個。在對變量系統進行簡化時,最重要的是當系統變量被有效地降到2維時(即兩個主成分),就可以在平面上描繪每個樣本點,以獲得直接觀察樣本點間的相關關系以及樣本群點的分布特點和結構。所以,主成分分析使高維數據點的可見性成為可能。在數據信息的分析過程中,對直觀圖像的觀察是一種重要手段,它能更好地協助系統分析人員的思維與判斷,及時發現大規模復雜數據群重的普遍規律與特殊現象,極大地體高數據信息的分析效率。在當今的決策支持系統理論與方法的研究中,將抽象空間或者高維空間中的信息以及一些更為復雜現象轉換為直觀的平面圖示是一種重要的研究途徑,能夠提高決策人員的洞察能力。主成分分析法來源于實踐。例如,從事數據分析工作的人往往面臨一張數據表,即數據矩陣。例如,在分析學生學習情況時,得到一張成績表,該表的列表示某門課程各學生成績,行表示一個學生的各科成績。一般而言,我們可以構造一個數據矩陣,列表示變量或指標,行表示相應變量的測量數據。一個數據矩陣階數往往非常大,使人眼花繚亂,抓不住重點,找不出規律。主成分分析的主要任務就是以某種最優方法綜合一張數據表的信息,以達到簡化數據矩陣,降低數據維數,從而揭示其主要結構信息,并提出關于數據矩陣所提供信息的合理解釋。尤其是,這方面的一個著名成功應用實例是美國統計學家斯通(Stone)在1947年對美國國民經濟的研究。他利用美國1929—1938年各年的數據,得到了17個反映國民收入與支出的變量要素,如雇主補貼、消費資料、生產資料、純公共支出、凈增庫、股息、利息、以及外貿平衡等等。在進行主成分分析后,用三個變量就取代了原來的17個變量,并且精度高達97.4%。根據經濟學知識,斯通給這三個綜合變量分別取名為總收入F1、總收入變化率F2、經濟發展或衰退的趨勢F3。更有意思的是,這三個新變量其實都是可以直接測量的。主成分分析法的主要降維思想可用如下簡單幾何觀點解釋。假設矩陣A是對具有p個變量指標的n個樣本所測量的數據矩陣。矩陣A的n行可看作空間Rp中的n個點或向量,表示n個個體,而。主成分分析本質上就是對原坐標系進行平移和旋轉變換,使得新坐標的原點與數據群的重心重合,新坐標系的第一個坐標軸與數據變異的最大方向相對應,新坐標系的第二軸與第一軸標準正交,并且對應于數據變異的第二大方向,以此類推。這些新軸分別被稱為第一主軸U1,第二主軸U2,…。如果經過舍去少量信息后,主軸能夠十分有效地表示原數據的變異情況,則原來的p維空間Rp就被降至m維空間Rm。生成的空間被稱為m維主超平面,尤其是當m=2時,就簡稱為主平面。這樣就可以用原樣本群點在主超平面上的投影來近似表達原樣本群。原樣本點在主超平面的第一主軸上的投影稱為第一主成分u1,它構成新數據表的第一個分析變量,在主超平面的第二主軸上的投影稱為第二主成分u2,它構成新數據表的第二個分析變量,…。記主成分uk均值和方差分別為E(uk)、Var(uk),則主成分的分析結果為數學原理對于給定的一個高維(p維)復雜變量系統(n個樣本),現在需要分析此變量系統的信息結構。為此,我們希望對原數據進行簡化,但要達到信息損失最小,以期分析數據結構。從數學上講,就是要對原數據變量降維,以獲得新的變量對問題進行解釋。要達到這一目的,可從多種途徑考察,現簡述如下。(1)數據變異方向最大原理如果試圖以一個一維向量空間取代原p維向量空間,則應該尋找數據群點分布方差最大的一個方向u1,將其作為新的綜合變量方向,再將所有樣本點在該方向上投影,就可獲得原數據群在一維空間的最佳近似表示。如果要在二維空間中近似地表示原數據群點,則要尋找一個與u1垂直的方向u2,且數據群在此方向u2的分布方差僅次于,是第二大的。如此下去,直到滿足最大限度地保持原數據信息為止。(2)最小二乘原理對原p維空間Rp中的樣本群,現在要通過一個線性變換,將其變為更低維的空間,使得原數據點在此空間的投影能近似地代替原數據,且信息損失最少。這實際上只需應用最小二乘原理。設原數據點Xk在空間的投影點為,則信息損失最少就是下式成立其中為樣本點的權重。(3)數據群相似度改變最小原理假設以距離來衡量樣本點之間的相似性,則主成分分析理論證明主超平面可以使數據群的相似性改變最小(此時用m維主超平面近似表達原數據群),此即(4)系統變量綜合表現能力最佳原理如果試圖用一個綜合變量來代替原數據變量,則第一主成分u1就是最好的選擇。用統計語言描述就是變量u1與原數據變量的相關系數最大,如果是用兩個主成分u1、u2來綜合原數據信息,則要求下式成立下面以系統變量綜合表現能力最佳原理為出發點,詳細討論主成分分析原理。對于給定的p維隨機向量,假定二階矩存在,記。考慮如下線性變換我們的目的是變換后的y1是的一切線性函數中方差最大的。但由于有所以應該限制變換(6.1)的系數矩陣行向量為單位向量。這樣問題變為如下問題的解,此時y1稱為第一主成分。設為非負定矩陣V的特征根,為相應的單位特征向量,且兩兩相互正交。令為正交矩陣,則有由于有特別取有因此,就是所求的第一主成分,其方差具有最大值。如果第一主成分所含信息不夠多,不足以代表原始的p個變量,則要考慮第二主成分y2。為了使y2所含信息與y1不重迭,應要求因此,第二主成分就是下列問題的解同樣可以求第三主成分,第四主成分等等。一般而言,第k主成分是下列問題的解現在求第二主成分。由(6.3)知于是,從而有當取時,則有所以,就是所求的第二主成分,且具有方差。以此類推,我們可求出第k主成分為或者具體寫為具有方差()。性質及算法假設反映研究對象屬性的指標有p個,,將這些指標看成p維隨機變量,則它的期望記為,二階矩(協方差矩陣)記為。對于這種對象觀察了n個樣本,其數據矩陣記為。從上面的分析看出,當把每個指標看成隨機變量時,觀察的n個對象便是相應樣本值。據此計算矩陣V的特征根和相應的單位特征向量,便可構造第k主成分可直接寫成。為了統一認識,下面將這種主成分的性質羅列出來以備查用。(1)主成分的均值、協方差、方差記主成分,從前面的討論知道。寫則有對于原始變量與主成分之間的總方差,由于所以也就是說,主成分分析把原始的p個變量的總方差tr(V)分解成了p個不相關變量的方差之和。(2)主成分兩兩正交,且(3)我們稱為對X的主成分變換。此變換是可逆的,且,被稱為用主成分的恢復數據變換。(4)原始變量X與主成分Y之間的相關性根據得,此即故有(5)主成分對原始變量的貢獻率我們將第k主成分yk占總方差的比例稱為主成分yk的貢獻率。第一主成分y1的貢獻率最大,表明它解釋原始變量的能力最強,而的解釋能力依次減弱。主成分分析的目的就是為了減少變量的個數,因此一般是不會使用所有p個主成分的,忽略一些帶有較小方差的主成分將不會給總方差帶來大的影響。前q個主成分的貢獻率之和為稱為主成分的累計貢獻率。它表明解釋原始變量的能力。通常取較小的主成分變量維數q,使得累計貢獻率達到一個較高的百分比(通常要求80%以上)。這時的主成分可用來代替原始變量,從而達到降低變量維數的目的,同時使得原始信息損失盡量小。在了解了主成分的性質后,我們現在可以討論主成分的計算步驟。對于給定的p維空間Rp中的n個樣本,其數據矩陣記為。主成分的計算過程如下:Step1:計算隨機變量 X的協方差矩陣V=V(X),其中Step2:計算矩陣S的前q個特征根使得,其中通常取80%左右,通過(6.6)計算。Step3:計算矩陣S的前q個特征根所對應的單位特征向量Step4:根據(6.4)計算前q個主成分分量Step5:根據(6.9)中原始變量與各主成分之間的系數關系做出解釋,必要時給出圖示。說明:(1)由于有些問題中各項指標的量綱不一致,從而可能造成協方差矩陣中數據差異較大,為了消除這種差異,可以將協方差矩陣改為相關矩陣,上面的所有討論結果完全一樣,并不影響最終的結果。所以,可用相關矩陣R代替二階矩V,此時有注意公式(6.10)與(6.8)的差別。(2)如果不知道隨機變量X的分布,從而無法計算其期望及二階矩,則還可以用樣本的點估計代替。假設對隨機變量X進行了n次觀察,其樣本矩陣記為,則有如下估計計算,令則有(3)當用協方差矩陣或者計算主成分時,獲得的主成分表達式(6.9)要變為此時對應的指標是:應用技術主成分分析法主要是對研究對象的高維指標實施降維,以便簡化問題,分析問題。因此,當獲得了需要的主成分后,我們首先就是對主成分做出解釋,分析主成分表達式(6.9)的系數及其代表的含義。其次,主成分可用于揭示數據的奇異性,達到最終剔除奇異數據的目的。最后,也是主成分應用最重要的一點,就是對研究對象及其系統做出綜合評價。一、主成分的解釋主成分是對原始變量的綜合,然而原始變量都有明確的含義,無論是物理的,還是經濟的。于是,自然要問對原始變量綜合后的每個主成分又有什么含義呢?這就是主成分的解釋。這種解釋可以幫助我們更清楚地認識研究系統的系統結構、系統構成、系統特征等。尤其是對時間序列數據進行主成分分析時,主成分分析能夠反映系統特征的變化趨勢,這種趨勢對于系統預測具有非常重要的意義。解釋主成分時,主要分析主成分表達式(6.9)的組合系數,并結合實際背景確定主成分及其相關系數含義。對于公式(6.9)右端的系數稱為第k主成分在第j個原始變量上的載荷。它度量了對的重要程度。在解釋主成分時,我們需要考察載荷以及主成分與原始變量之間的相關性。根據公式(6.6)可知,載荷與相關系數成正比,僅相差一個常數倍。這樣,我們可以通過觀察主成分(6.9)的組合系數的大小及其符號,對主成分的物理含義做出解釋、判斷。如果這些系數既有正,又有負,說明該項主成分與一部分原始變量正相關,一部分負相關。正相關時,與的變化趨勢同向;負相關時,反向。如果組合系數大,說明與的關系密切。通常可以根據這些分析及其研究問題的背景,給出主成分的名稱定義。另外,對于公式(6.4)中最后一個主成分,由于它的貢獻率往往非常小,此時可以認為,此即接近于一個常數。雖然,的貢獻小而顯得不重要,但卻可能揭示出變量之間的一個共線性關系。如果最后幾個主成分的貢獻率都非常小,則可能表示變量之間有幾個共線性關系。這方面容易忽略,但對問題的分析確有幫助,應該重視。二、綜合評價從前面的討論知道,第一主成分與原始變量的綜合相關度最大。從這個意義上來講,如果試圖應用一個綜合變量來代替原始變量,則選擇第一主成分是最好的辦法。另一方面,第一主成分也是數據變異最大的方向,即是使原數據信息損失最小、精度最高的一維綜合變量。所以說,可以將用作系統評估指數。同時,由于在第一主成分方向上,樣本點的性質差距最大,也易于對它們進行排序評估。顯然,的貢獻率可當作評估的精度。但要注意,如果對問題進行排序評價時,則要小心。此時要求第一主成分表達式中的所有載荷都為正,即與所有原始變量都正相關,才能將用作系統排序評價。否則,不能將用作系統評價排序。另外需要注意的是,第一主成分的載荷必須滿足,才能將其用作綜合評價指標。因為如果某項載荷為零,即,或近似為零,則在評價時,可能會遺漏對應指標的重要信息。一般情況下,如果要將所有主成分都用作評價系統時,有文獻建議如下評價公式上式中的為前k個主成分,其系數為權重。這里同樣需要注意一個問題,就是所有主成分的載荷都為正時,才能將此公式用作綜合評價。否則,由于這種多指標屬性的無序(一些正相關,一些負相關),不能這樣簡單地構造評價公式。應用范例為了說明主成分分析的應用,這里將用兩個實例進行分析。問題A:中國城鎮居民家庭消費分析[1]為了分析我國城鎮居民家庭消費結構,統計了1999年我國31個省、市和自治區的城鎮居民家庭平均每人全年消費性支出的八個主要變量數據(資料來源:2000年《中國統計年鑒》),單位:元,具體見表6-1。這八個變量分別是:食品交通和通訊衣著娛樂教育文化服務家庭設備用品及服務居住醫療保健雜項商品和服務城鎮居民家庭消費性支出數據表6-1地區北京2959.19730.79749.41513.34467.871141.82476.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.90362.37285.32272.95540.58364.91186.63山西1406.33477.77290.15206.57201.50414.72281.84212.10內蒙古1303.97524.29254.83192.17249.81463.09287.87192.96遼寧1730.84553.90246.91279.81239.18445.20330.24163.86吉林1561.86492.42200.49216.36220.69459.62360.48147.76黑龍江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.93527.001034.98720.33462.03江蘇2207.58449.37572.40211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314.00151.39福建2709.46426.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.90209.70393.99509.39160.12山東1675.75613.32550.71219.79272.59599.43371.62211.84河南1427.65431.79286.55206.14217.00337.76421.31165.32湖北1783.43511.88282.84201.01237.60617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.60226.45廣東3055.17353.23564.56356.27811.88873.06106.82420.81廣西2033.87300.82336.65157.78329.06621.74587.02216.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重慶2303.29589.99516.21236.55403.92730.05436.41225.80四川1974.28507.76344.79203.21240.24575.10430.36223.40貴州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.70330.95西藏2646.61839.70204.44209.11379.30371.04269.59389.33陜西1472.95390.89447.95259.51230.61490.90469.10191.34甘肅1525.57472.98326.90219.86206.65449.69249.66226.19青海1654.69437.77256.78303.00244.93479.53286.56236.51寧夏1375.46480.89273.84317.32251.08424.75226.73195.93新疆1606.82536.05432.46235.82250.28541.30344.85214.40消費性支出相關矩陣數據表6-21.0000.2471.0000.6980.2581.0000.4680.4230.6211.0000.8280.0860.5850.5311.0000.7690.2550.8560.6840.7081.0000.670-0.2010.5690.3140.8000.6471.0000.8770.3490.6670.6280.7760.7450.5251.000由于各項指標數據差異較大,下面通過相關矩陣進行主成分分析。通過計算,給出的8項指標的相關矩陣列于表6-2。由于相關矩陣的對稱性,所以表6-2中僅列出了下三角部分數據。通過計算,相關矩陣前三個特征根、特征向量、貢獻率見表6-3。的前三個特征根、特征向量、貢獻率表6-3特征向量0.401-0.0770.4150.1320.7490.3320.3750.065-0.4420.3200.345-0.4780.388-0.2320.2790.4060.027-0.3100.326-0.496-0.0340.3960.0960.345特征值5.0981.3520.574貢獻率0.6370.1690.072累計貢獻率0.6370.8060.878由表6-3可知,取前兩個和三個特征根就可獲得累計貢獻率80.6%和87.8%。于是可構造前三個主成分如下:對于第一主成分,除了在上的載荷稍偏小外,其余都有幾乎相等的正載荷,反映了綜合性消費支出水平。因此,第一主成分稱為綜合消費性支出成分。第二主成分在變量上有很高的正載荷,在變量上有中等的正載荷,而在其余變量上有負載荷或很小的正載荷。可以認為這個主成分度量了受地區氣候影響的消費性支出(主要是衣著,其次是醫療保健)在所有消費性支出中占的比重(也可理解為一種消費傾向),第二主成分可稱為消費傾向成分。第三主成分很難給出明顯的解釋,因此我們只取前面兩個主成分。記,它是消費性總支出。與之間存在著高達r=0.989的正相關性,雖然這兩個變量的關系極為密切,且意義相近,但兩者還是有一定區別的。中各變量對的作用可以有很大的不同。如的作用就特別大;而是對作標準化變換(是基于對每項消費性支出平等看待的要求)后得到的,依據的表達式,中的每個變量對的作用是大致相同的。此外,的含義是完全明確的,而的含義是在某種意義上的。某地區的值取決于該地區中的每個變量值在所有31介地區中的相對大小,它是這八個變量值相對大小的綜合值。主成分分析能夠揭示出中所不具有的重要信息(如消費傾向)。按第一主成分排序的31個地區名次表6-4地區地區江西-2.234-1.867新疆-0.6970.647河南-1.947-0.388四川-0.5330.041黑龍江-1.9270.636廣西-0.251-2.058吉林-1.8590.151山東-0.1470.983山西-1.8480.404福建0.201-1.337內蒙古-1.8260.509湖南0.219-0.203安
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論