第六講,主成分分析_第1頁
第六講,主成分分析_第2頁
第六講,主成分分析_第3頁
第六講,主成分分析_第4頁
第六講,主成分分析_第5頁
已閱讀5頁,還剩30頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主成分分析(PrincipalComponentAnalysisPCA)1主成分分析主成分分析主成分分析是對多變量數據進行統計處理的一種數據線性投影方法,它在盡可能保留原有信息的基礎上將高維空間中的樣本映射到較低維的主成分空間。其基本思路是以一種最優化方法濃縮量測數據信息,使數據矩陣簡化,降低維數,尋找少數幾個由原始變量線性組合的主成分,以揭示數據結構特征,提取基本信息。該法具有變差最優性、信息損失最小性、相關最優性、回歸最優性等特點。2主成分分析主成分分析的概念主成分分析的中心目的是將數據降維,以排除眾多化學信息共相存相互重疊的信息。它是將原變量進行轉換,使少數幾個新變量是原變量的線性組合,同時,這些變量要盡可能多地表征原變量的數據結構特征而不丟失信息,新變量互不相關,即正交。文獻中有許多種叫法:本征矢量投影、奇異值分解、karhunenloeve展開、和K-L投影3主成分分析主成分分析的基本原理在二維空間有一組測試點(y1i,y2i)(i=1,2,…,n),如下圖,這組數據在二維平面上分布大致為橢圓形,若似將二維降為一維,實際上就是將二維空間上的點投影到一維空間中的一條線上。4主成分分析主成分分析的基本原理Y1Y2Y1Y2μ11O1‘μ25主成分分析主成分分析的基本原理在一維空間中的這條線必須包含原數據的最大方差。更準確些說,沿著這條線,使方差達到最大,其它方向使方差達到最小。從代數學的觀點看,這些點的分布可以表達成它們到其重心O距離之平方加和:S2=|O1|2+|O2|2+…+|O6|26主成分分析主成分分析的基本原理現在引入一直線L,6個數據點在L上的投影分別為1`,2`,…,6`,那么有:|Oi|2=|Oi`|2+|ii`|2S2=|O1`|2+|O2`|2+…+|O6`|2+|11`|2+|22`|2+…+|66`|2第一部分即為沿直線方向的方差,必須使之達到最大;第二部分即為沿其它方向的方差,必須達到最小。為實現上述思想,選定的第一個新變量μ1(主成分1)應沿直線L方向,因為它可以表征最大的偏差量。第二個新變量μ2(主成分2)應與第一個新變量正交,即不相關。7主成分分析m維空間中的主成分分析在m維空間中,新變量μ1,μ2,…,μm表達為8主成分分析其系數矩陣為新變量μ和老變量x的列矢量分別為矩陣形式為:μ=VX9主成分分析m維空間中的主成分分析方差最大化等效于RxV=λVRx為數據矩陣的協方差矩陣,V為Rx的特征向量,λ為Rx的特征值。第一個主成分μ1對應于第一個最大的特征值和第一個特征向量,第二個主成分μ2對應于第二個最大的特征值和第二個特征向量。10主成分分析主成分的選取在m維空間中,可得m個主成分。在實際應用中一般可取前幾個對偏差量貢獻大的主成分,這樣可使高維空間的數據降到低維如二維或三維空間。取前P個主成分的依據為:比率(%)11主成分分析注意事項當數據的來源不一,不同變量間數據差異較大或量綱不同時,應作標準化處理。標準化處理有以下方法:自動調整法(autoscaling):將變量與本列的均值之差被標準偏差來除。此時相當于應用相關矩陣RX來計算本征矢量和本征值:

RXV=λV12主成分分析注意事項歸一化:對數據矩陣的列或整個矩陣進行歸一化處理。用Matlab命令:normc(X)或norm(X)均值中心化:從每個變量中減去該列的平均值。值域調整法(rangescaling):13主成分分析數字實例試樣測定值測定值標準化值(自動調節法)樣品號y1y2y314826172442015340248438181053291262862272658824412樣品號y1y2y311.4751.3350.83121.0210.6670.41630.5671.112-1.03940.3400.445-0.6245-0.340-0.556-0.2086-0.794-0.8901.8717-1.021-1.001-1.0398-1.248-1.112-0.20814主成分分析本征值及本征矢量的計算數據矩陣Cx=協方差矩陣Z=CxT×CxZ=15主成分分析本征值及本征矢量的計算通過協方差矩陣計算特征向量和特征值用Matlab的函數:[V,D]=eig(Z)本征矢量矩陣

V=本征值矩陣

D=16主成分分析主成分的選擇從最大的本征值開始加和,使比率大于80%即:選擇主成分1和主成分2比率(%)比率(%)17主成分分析新變量方程μ1=-0.7082C1-0.7046C2-0.0454C3

μ2=0.0465C1-0.1107C2+0.9928C3通過上述變換,將C1、C2、C3三維空間的各點,變為二維空間的點。18主成分分析不同采收期連翹的HPLC指紋圖譜研究將22批連翹色譜圖采用Chromafinger色譜指紋圖譜軟件進行數據處理,以各月份代表性樣品生成的共有模式。(11號峰為連翹脂苷,17號峰為連翹苷)19主成分分析不同采收期連翹主成分分析貢獻率及累計貢獻率從主成分分析的貢獻率來看:PC1的貢獻率最大為85.42%,PC2的貢獻率次之為9.12%。其他的貢獻率較小。從累積貢獻率來看,取前2個特征值時,累積貢獻率為94.54%,故取前2個為主成分。20主成分分析標準化特征向量PC1得分值是11、17和21號色譜峰峰面積值的綜合作用。PC2得分值是11、18和21號色譜峰峰面積值的綜合作用峰號主成分表達式21主成分分析樣本在2個主成分的二維平面分布圖綜上所述,根據各樣本PC1和PC2得分和相似度分析結果,進行綜合評價,可以確定連翹在8月底至9月份采收為佳。7月份連翹各主要成分含量也很高,但此時是果實生長初期,10月份連翹大都已經成熟,表皮開始發黃,傳統上采收入藥為老翹。22主成分分析主成分分析法研究新疆產6種紅景天中無機元素在其功效中的協同作用景天科紅景天屬多種藥用植物,具有滋補強壯、抗衰老、抗病毒、抗腫瘤、抗心率失常、保護心臟、抗輻射等功效。新疆6種紅景天微量元素含量(μg/g)23主成分分析主成分分析結果通過求變量的相關矩陣確定特征值和特征向量,根據特征值來確定主成分個數。經計算,當主成分數達到3時,累計解釋率已達到80.133%,故取3個主成分即可。3個主成分所對應的特征值為λ1為3.26、λ2為1.735、λ3為1.416。24主成分分析3個主成分所對應的戴荷矩陣25主成分分析Z1得分及排名和解釋研究表明,人體Ca、Mg2種元素的含量與心腦疾病的發生密切相關:陳麗霞等的研究指出Ca、Mg能降低膽固醇含量,從而起到預防冠心病的作用。地奧心血康中Ca、Mg含量較高,有利于治療冠心病。胡雪梅等研究了治療心血管疾病的8種中藥的功效與微量元素的關系,結果表明這8種中藥Ca、Mg含量較高。第一主成分主要由Ca、Mg2種元素的含量按一定比例線性組合而成。26主成分分析Z2得分及排名和解釋王健等研究了368種中藥表明,抗菌抗腫瘤藥中富含K,說明K有抗腫瘤作用。有研究表明,Mg具有抗癌抑癌作用,Cu的鉻合物具有抗炎抗癌作用。表明K、Cu、Mg3種元素協同作用,共同起到抗炎抗癌作用。第二主成分主要由K、Cu、Mg3種元絮含量線性組合而成。27主成分分析Z3得分及排名和解釋益氣補血類藥中Zn、Cu、Mn、Fe含量較高,其益氣補血的作用與Zn、Cu、Mn、Fe的生化功能有著必然的聯系。錳能促進銅的利用。銅能加速鐵的吸收和利用,鐵、錳、銅有生血協同作用。這4種元素按照一定的比例協同作用,共同起到益氣補血的作用。第三主成分主要由Zn、Cu、Mn、Fe4元素含量線性組合而成28主成分分析基于主成分分析的中藥色譜指紋圖譜多維多息特征數據挖掘方法研究選擇10批次不同產地的當歸色譜指紋圖譜作為實驗樣本,指紋圖譜見圖1。將10批指紋峰號為S01~S10的當歸指紋圖譜導入“中藥色譜指紋圖譜多維多息特征參數分析系統”,輸入試驗條件,進樣量為10μl、檢測波長為254nm,有效分離度最小值1.5、相對指數時間常數50,自動計算當歸的37個多維多息特征參數。29主成分分析10批當歸指紋圖譜30主成分分析特征根分析31主成分分析主成分載荷矩陣第1主成分:試驗條件優化指標;第2主成分:指紋圖譜信息參數;第3主成分:指紋成分含量參數;第4主成分:指紋成分含量比例參數32主成分分析綜合主成分得分33主成分分析主成分分析運用(1)降維(或稱數據壓縮),尋找幾個主成分(也稱潛變量)在低維空間表示高維數據;(2)數據的可視化和分類聚類,主成分的投影顯示法即可用于分類判別又可用于聚類,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論