代謝組學的數據分析技術_第1頁
代謝組學的數據分析技術_第2頁
代謝組學的數據分析技術_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、代謝組學的數據分析技術摘要:代謝組學是效仿基因組學和蛋白質組學的研究思想,對生物體內所有代謝物進行定量分析,并尋找代謝物與生理病理變化的相對關系的研究方式,是系統生物學的組成部分。其研究對象大都是相對分子質量1000以內的小分子物質。先進分析檢測技術結合模式識別和專家系統等計算分析方法是代謝組學研究的基本方法。文章主要綜述了將代謝組學中的圖 譜、數據信息轉換為相應的參數所采用的分析方法。關鍵詞:代謝組學;數據分析方法代謝組學是以代謝物分析的整體方法來研究功能蛋白如何產生能量和處理體內物質,評價細胞和體液內源性和外源性代謝物濃度及功能關系的新興學科,是系統生物學的重要組成部 分,其相應的研究能反

2、映基因組、轉錄組和蛋白組受內外環境影響后相互協調作用的最終結果,更接近反映細胞或生物的表型,因此被越來越廣泛地應用。而代謝組學的數據分析包括預處理和統計分析方法, 多元統計分析方法主要分為兩大類:非監督和監督方法, 非監督方法包括主成分分析 PCA ;聚類分析CA等;監督方法包括顯著性分析、偏最小二乘法等, 本文就是主要綜述代謝組學圖譜信息轉化為參數信息所采用的數據分析方法。1預處理數據的預處理過程包括以下:譜圖的處理;生成原始的數據矩陣; 數據的歸一化以及標準化處理過程。針對實驗性質、條件以及樣品等因素采用不同的預處理方法。在實際應用過程中,預處理可以通過實驗系統自帶的軟件如XCMS軟件。進

3、行,因此一般較容易獲得所需的數據形式。2數據分析方法2.1主成分分析 PCA是多元統計中最常用的一種方法,它是在最大程度上提取原始信息的同時對數據進行降維處理的過程,其目的是將分散的信息集中到幾個綜合指標即主成分上, 有助于簡化分析和多維數據的可視化,進而通過主成分來描述機體代謝變化的情況。PCA的具體過程是通過一種空間轉換,形成新的樣本集,按照貢獻率的大小進行排序,貢獻率最大的稱為第一主成分,依次類推。經驗指出,當累計貢獻率大于85%時所提取的主成分就能代表原始數據的絕大多數信息,可停止提取主成分。在代謝組數據處理中,PCA是最早且廣泛使用的多變量模式識別方法之一。,具有不損失樣品基本信息、

4、對原始數據進行降維處理的同時避免原始數據的共線性問題等優點,但在實際應用過程中,PCA存在著自身的缺點1:離群樣本點的存在嚴重影響其生物標志物的尋找;非保守性的代謝組分擾亂正確 的分類以及尺度的差異影響小濃度組分的表現等,其他的問題之前也有討論2。針對PCA的缺陷采用了不同的改進措施,與此同時,為了簡化計算,侯詠佳等3。提出了一種主成分分析算法的FPGA實現方案,通過Give ns算法和CORD IC算法的矢量旋轉,用簡單的移 位和加法操作來實現協方差矩陣的特征分析,只需計算上三角元素,因此計算復雜度小、迭代收斂速度快。2.2聚類分析CA是用多元統計技術進行分類的一種方法。其主要原理是:利用同

5、類樣本應 彼此相似,相類似的樣本在多維空間里的彼此距離應較小,而不同類的樣本在多維空間里的距離較大。具體的做法是先將每個樣本自成一類,選擇距離最小的一對并成一個新類,計算新類與其他類之間的距離,再將距離最小的兩類并為一類,直至所有樣本都成為一類為止。目前多維空間里的兩樣本距離的算法主要有:歐氏距離、閔氏距離、馬氏距離等, 其中以歐氏距離最常用。2.3判別分析DA又稱分辨分析或分辨法,是在一系列多因子(xi)觀測值的基礎上,對事物的屬性差別進行分類或分辨的統計學法,主要用于定性預測。其基本方法是根據樣品的P個測定指標,對一批位置樣品進行分類;前提是已知一些樣品的分類,然后根據P個測定指標來確定未

6、知樣品究竟歸屬哪一類。在判別分析中,判別函數有最佳型判別函數和固定型判別函數兩類。目前,判別分析的準則和方法亦有許多,如馬氏距離判別法、Fisher判別法、Bayes判別法、逐步判別法等等。2.4偏最小二乘法 PLS是SWold和CAIbano等19 1983年首次提出的回歸方法。它在克服 自變量多重相關性的情況下,能對較少的樣本量進行建模以及有效的篩選。葉鶯等4實驗證明,與一般最Jb-乘法及PCA相比,PLS計算所得的擬合殘差最小,穩定度最高,能改 善各變量的作用方向并使其更符合專業解釋,成為模型變量篩選的有效工具。其基本原理如下:將數據進行中心化和標準化,形成自變量和因變量的矩陣;求協方差

7、矩陣,并根據協方差求其最大特征值對應的特征向量;通過檢驗交叉有效性來確定提取成分的個數;求相應的回歸方程及相應的回歸系數,最后還原回歸模式。在數據處理過程中,PLS提供了一種多對多線性回歸建模的方法,特別當兩組變量的個數很多,且都存在多重相關性,而觀測數據的數量又少時,采用PLS建立的模型具有獨特的優點。對于解釋變量個數大于觀察個體數相當有效 21。具有PCA、典型相關分析和多元線性 回歸分析的優點。2.5其他在代謝組學的研究中,除了以上所提及的分析方法外,還有非線性映射(NLM)、k最鄰近法(K NN)、正交偏最小二乘法-判別分析(OPLS DA)、系統聚類法(Hierachicalclus

8、tering Method)HCM 以及非負矩陣分解(NMF)等模式識別技術用于其數據分析。NLM是解決非線性問題的模式識別方法;KNN用于非參數的模式識別;OPL$ DA可以直接顯示組內哪些代謝物升高或降低,而NMF與PCA比較,在可分性方面更容易解釋,并且更適用于代謝組學數據的處理。在實際數據分析應用過程中,由于不同的模式識別技術適用范圍和優缺點各不相同,例如PCA是代謝組學中最常規的分析方法,能找出各主成分就能進行數據降維,但可能導致一 些有用數據的丟失;P1. S用于建立預測回歸方程,但只能作定性分析,并盡量減少解釋變 量;而ANN在處理規律不明顯、組分變量多的問題方面卻具有特殊的優越

9、性。因此必須將 他們有機結合起來,并尋找更多更有效的統計分析方法,從而為代謝組學的數據進行有效的處理提供很好的平臺。出 4種相當重要的代謝物:蘋果酸、檸檬酸、葡萄糖和果糖。3總結隨著代謝組學的日益發展,越來越多的人把目光轉向代謝組學的研究,而其數據處理也已經成為研究中重要的難題。雖然目前國內外代謝組學的研究已經取得了一些成果,但由于其尚未有功能完備的數據庫,數據分析受到一定的限制。與此同時,生物樣本的復雜性使得代謝組學的研究難以達到分析全部的組分以及所有的代謝成分的要求,這就需要進一步發展高通量、高效、快速的以及整合化的儀器分析技術,開發能滿足全組分分析的算法和軟件,將儀器分析技術、數據處理技術、多元統計分析技術以及可視化軟件有機結合起來,以更好地促進代謝組學的發展。12李晶,吳曉健。劉昌孝,等代謝組學研究中數據處理新方法的應用J 藥學學報,2006, 41(1): 47.13白雪梅,趙松山對主成分分析綜合評價方法若干問題的探討J 統計研究,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論