四多序列聯配及系統進化樹構建講訴_第1頁
四多序列聯配及系統進化樹構建講訴_第2頁
四多序列聯配及系統進化樹構建講訴_第3頁
四多序列聯配及系統進化樹構建講訴_第4頁
四多序列聯配及系統進化樹構建講訴_第5頁
已閱讀5頁,還剩128頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、多序列聯配及多序列聯配及系統進化樹構建系統進化樹構建序列同源性分析序列同源性分析 當我們在研究一個蛋白質或基因時,經常會考慮這樣一個很基本當我們在研究一個蛋白質或基因時,經常會考慮這樣一個很基本的問題:的問題:它與其他蛋白質的同源性關系如何?它與其他蛋白質的同源性關系如何?序列同源性分析序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的序列中是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關鍵的一步。是理論分析方法中最關鍵的一步。

2、由于由于同源序列通常保持了相似的結構和功能同源序列通常保持了相似的結構和功能,因而多序列比對就,因而多序列比對就顯得很有意義。顯得很有意義。 盡管可以對蛋白質、盡管可以對蛋白質、DNA序列進行多重比對,但是很多數據庫序列進行多重比對,但是很多數據庫的比對的比對只針對蛋白質家族只針對蛋白質家族。實際應用中常進行氨基酸序列的多序列比對,然后轉化成相應的實際應用中常進行氨基酸序列的多序列比對,然后轉化成相應的DNA比對比對多序列比對的定義多序列比對的定義 蛋白家族的特征是用存在一組同源序列的多重比對來定義的。蛋白家族的特征是用存在一組同源序列的多重比對來定義的。一個多重比對就是一組可以部分或整體對齊

3、的蛋白質或核苷酸一個多重比對就是一組可以部分或整體對齊的蛋白質或核苷酸序列序列(3個或個或3個以上個以上)。 相同或相似的氨基酸殘基排在同一列上,這些對齊的殘基在相同或相似的氨基酸殘基排在同一列上,這些對齊的殘基在進化意義上是同源的:來自共同的祖先。進化意義上是同源的:來自共同的祖先。并且還可假定從結構并且還可假定從結構角度看,這些殘基也是同源的:角度看,這些殘基也是同源的:在三維結構中,對齊的殘基也在三維結構中,對齊的殘基也傾向于占據對應的位置傾向于占據對應的位置。 對于關系很近的一組序列,很容易產生多序列比對,甚至可對于關系很近的一組序列,很容易產生多序列比對,甚至可以直接觀察得到。但當序

4、列間出現一些分歧時,多序列比對過以直接觀察得到。但當序列間出現一些分歧時,多序列比對過程中出現的問題就很難解決了,如程中出現的問題就很難解決了,如gap數量和位置的估計就比數量和位置的估計就比較困難。較困難。 那么如何確定某些氨基酸殘基是否對齊了呢?那么如何確定某些氨基酸殘基是否對齊了呢? 可根據下面可根據下面4個特征來判斷相應氨基酸殘基是否已經對齊:個特征來判斷相應氨基酸殘基是否已經對齊: (1)一些高度保守的殘基一些高度保守的殘基(如參與形成二硫鍵的半胱氨酸如參與形成二硫鍵的半胱氨酸); (2)形成保守基序或結構域,如跨膜結構域和免疫球蛋白結構域形成保守基序或結構域,如跨膜結構域和免疫球蛋

5、白結構域等。等。 (3)蛋白質二級結構的保守特征蛋白質二級結構的保守特征,如參與形成,如參與形成-螺旋、螺旋、-折疊和折疊和可變區的殘基;可變區的殘基; (4)顯示出一致插入或缺失模式的區域顯示出一致插入或缺失模式的區域。多序列比對的定義多序列比對的定義多序列比對的意義多序列比對的意義u 用于分析同一基因或蛋白質在不同物種中用于分析同一基因或蛋白質在不同物種中的進化的進化u 通過分析多個基因或蛋白質序列之間的同通過分析多個基因或蛋白質序列之間的同源性確定它們在進化上的關系源性確定它們在進化上的關系u 分析基因或蛋白質的功能分析基因或蛋白質的功能70 Mya200 MyaWGD 14 and 4

6、2 Mya67.7 MyaPhylogenetic analysisEo, 棕櫚棕櫚; Ma, 香蕉香蕉; Zo, 姜姜; Cl, 姜黃姜黃72 Mya多序列比對的典型應用和實際策略多序列比對的典型應用和實際策略 什么時候使用和為什么使用多重比對什么時候使用和為什么使用多重比對若所研究的蛋白質或基因與另一組蛋白質有聯系,那么這若所研究的蛋白質或基因與另一組蛋白質有聯系,那么這些蛋白質可以提供可能的功能、結構、進化方面的信息;些蛋白質可以提供可能的功能、結構、進化方面的信息;大多數蛋白質家族中有遠緣的成員。與兩兩比對相比,多大多數蛋白質家族中有遠緣的成員。與兩兩比對相比,多序列比對能夠更敏感地發

7、現同源關系;序列比對能夠更敏感地發現同源關系;在檢查某次數據庫搜索結果時,多重比對形式的結果能更在檢查某次數據庫搜索結果時,多重比對形式的結果能更容易顯示保守殘基與基序;容易顯示保守殘基與基序;如果研究如果研究cDNA克隆,按照慣例我們會對相應序列進行測序。克隆,按照慣例我們會對相應序列進行測序。多序列比對可以顯示結果中是否有矛盾之處;多序列比對可以顯示結果中是否有矛盾之處;分析物種數據可以揭示很多生物學問題(如進化、結構和分析物種數據可以揭示很多生物學問題(如進化、結構和功能等方面)。功能等方面)。Entrez的的PopSet部分包含了核酸和蛋白質部分包含了核酸和蛋白質的物種數據集,可以多重

8、比對的形式顯示。的物種數據集,可以多重比對的形式顯示。多序列比對的典型應用和實際策略多序列比對的典型應用和實際策略 什么時候使用和為什么使用多重比對什么時候使用和為什么使用多重比對6. 當一個物種的基因組被完整測序,數據分析的一個主要部分當一個物種的基因組被完整測序,數據分析的一個主要部分是定義所有基于產物所歸屬的蛋白家族。是定義所有基于產物所歸屬的蛋白家族。數據庫搜索進行高效數據庫搜索進行高效的多重比對,將每一個新蛋白或基因與其他所有家族的蛋白質的多重比對,將每一個新蛋白或基因與其他所有家族的蛋白質進行比較。進行比較。7. 利用多序列比對數據構建系統發生樹。建樹的一個最關鍵的利用多序列比對數

9、據構建系統發生樹。建樹的一個最關鍵的步驟就是產生最佳的多序列比對。步驟就是產生最佳的多序列比對。8. 很多基因的調節區含有轉錄因子結合的共有序列。很多基因的調節區含有轉錄因子結合的共有序列。9. 功能分歧分析、分子進化分析等。功能分歧分析、分子進化分析等。10.其他應用,如構建其他應用,如構建profile,打分矩陣等。,打分矩陣等。HMMER就是利用就是利用已知同源序列的多序列比對結果構建已知同源序列的多序列比對結果構建profile,然后再利用該,然后再利用該profile去搜索蛋白數據庫查找相應蛋白的同源序列。去搜索蛋白數據庫查找相應蛋白的同源序列。 同源性分析中常常要通過多序列比對來找

10、出序列之間的相互關系,和blast的局部匹配搜索不同,多序列比對大多都是采用全局比對的算法。這樣對于采用計算機程序的自動多序列比對是一個非常復雜且耗時的過程,特別是序列數目多,且序列長的情況下。多序列比對的方法多序列比對的方法多序列比對的方法多序列比對的方法2. 計算機程序自動比對計算機程序自動比對 通過特定的算法(如同步法,漸進法等),由計算機程序自動搜索最佳的多序列比對狀態。基本上多序列比對可以分為基本上多序列比對可以分為:1. 手工比對手工比對(輔助編輯軟件如(輔助編輯軟件如 bioedit,seaview,Genedoc等)等) 通過輔助軟件的不同顏色顯示不同殘基,靠分析者的觀察來改變

11、比對的狀態。Se-Al自動多序列比對的算法自動多序列比對的算法1. 同步法同步法 將序列兩兩比對時的二維動態規劃矩陣擴展到三維矩陣。即用矩陣的維數來反映比對的序列數目。這種方法的計算量很大,對于計算機系統的資源要求比較高,一般只有在進行少數的較短的序列的比對的時候才會用到這個方法。2. 步進法步進法 最常見的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具有進化相關性相似序列通常具有進化相關性的這一假設。 Clustal的漸進比對過程的漸進比對過程 在比對過程中,先對所有的序列進行兩兩比對并計算它們相似性分值,然后根據相似性分值將它們分成若干組,并在每組之間進行比對,計算相似

12、性分值。根據相似性分值繼續分組比對,直到得到最終比對結果。在比對過程中,相似性程度較高的序列先進行比對而距離較遠的序列添加在后面。多序列比對常用軟件多序列比對常用軟件1. Clustal W/ Clustal X2. MUSCLE3. MAFFT4. T-Coffee5. ProbCons6. POA7. DIALIGN性能比較 1. ClustalW/X: 最經典、最被廣泛接受的工具 2. MUSCLE: 目前最流行的多序列比對工具 3. DIALIGN: 序列相似性低時最準確 4. POA:性能接近T-Coffee和DIALIGN,速度最快(As sequences varied cons

13、iderably in length, POA (Lee et al. 2002), which treats long indels very accurately, was the alignment program of choice.) 5. ProbCons:目前綜合性能比較好 6. T-Coffee:序列相似性高時最準確 7. MAFFT:綜合性能比較好Clustal工具工具 Clustal是一個單機版的基于漸進比對的多序列比對工具,由Higgins D.G. 等開發。有應用于多種操作系統平臺的版本,包括linux版,DOS版的clustalw,clustalx等。 CLUSTAL

14、是一種漸進的比對方法,先將多個序列兩兩比對構建距離矩陣,反映序列之間兩兩關系;然后根據距離矩陣計算產生系統進化指導樹,對關系密切的序列進行加權;然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構建比對,直到所有序列都被加入為止。Clustal的工作原理Clustal輸入多個序列輸入多個序列快速的序列兩兩比對,計算序列間的距離,快速的序列兩兩比對,計算序列間的距離,獲得一個距離矩陣。獲得一個距離矩陣。鄰接法鄰接法(NJ)構建一個樹(引導樹)構建一個樹(引導樹)根據引導樹,漸進比對多個序列。根據引導樹,漸進比對多個序列。Clustal的比對模式多序列比對模式多序列比對模式Profile比對

15、模式比對模式:先對不同的亞家族成員進行多序:先對不同的亞家族成員進行多序列比對,然后將兩個多序列比對進行整合。列比對,然后將兩個多序列比對進行整合。Clustalx的工作界面(多序列比對模式多序列比對模式)Clustalx的工作界面(profile比對模式比對模式)Clustal X的應用1. 輸入輸出格式輸入輸出格式 輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。 輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據自己的需要選擇合適的輸出格式。2. 兩種工作模式

16、兩種工作模式a. 多序列比對模式b. profile比對模式多序列比對實例輸入文件的格式(fasta): HvNIP2-1MASNSRSNSRATFSSEIHDIGTVQNSTTPSMVYYTERSIADYFPPHLLKKVVSEVVSTFLLVFVTCGAAAISAHDVTRISQLGQSVAGGLIVVVMIYAVGHISGAHMNPAVTLAFAIFRHFPWIQVPFYWAAQFTGAICASFVLKAVLHPITVIGTTEPVGPHWHALVIEVVVTFNMMFVTLAVATDTRAVGELAGLAVGSSVCITSIFAGAVSGGSMNPARTLGPALASNRYPGLWLY

17、FLGPVLGTLSGAWTYTYIRFEDPPKDAPQKLSSFKLRRLQSQSVAADDDELDHIPVHvNIP2-2MSVTSNTPTRANSRVNYSNEIHDLSTVQDGAPSLAPSMYYQEKSFADFFPPHLLKKVISELVATFLLVFVTCGAASIYGADVTRVSQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFACFRHFPWIQVPFYWAAQFTGAMCAAFVLRAVLHPITVLGTTTPTGPHWHALVIEIIVTFNMMFITCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMNPARTLAPAVAS

18、GVYTGLWIYFLGPVIGTLSGAWVYTYIRFEEEPSVKDGPQKLSSFKLRRLQSQRSMAVDEFDHVOsNIP2-1MASNNSRTNSRANYSNEIHDLSTVQNGTMPTMYYGEKAIADFFPPHLLKKVVSEVVATFLLVFMTCGAAGISGSDLSRISQLGQSIAGGLIVTVMIYAVGHISGAHMNPAVTLAFAVFRHFPWIQVPFYWAAQFTGAICASFVLKAVIHPVDVIGTTTPVGPHWHSLVVEVIVTFNMMFVTLAVATDTRAVGELAGLAVGSAVCITSIFAGAISGGSMNPARTLGPAL

19、ASNKFDGLWIYFLGPVMGTLSGAWTYTFIRFEDTPKEGSSQKLSSFKLRRLRSQQSIAADDVDEMENIQVOsNIP2-2MASTTAPSRTNSRVNYSNEIHDLSTVQSVSAVPSVYYPEKSFADIFPPNLLKKVISEVVATFLLVFVTCGAASIYGEDMKRISQLGQSVVGGLIVTVMIYATGHISGAHMNPAVTLSFAFFRHFPWIQVPFYWAAQFTGAMCAAFVLRAVLYPIEVLGTTTPTGPHWHALVIEIVVTFNMMFVTCAVATDSRAVGELAGLAVGSAVCITSIFAGPVSGGSMN

20、PARTLAPAVASNVYTGLWIYFLGPVVGTLSGAWVYTYIRFEEAPAAAGGAAPQKLSSFKLRRLQSQSMAADEFDNV讀入序列數據讀入序列數據設置多序列設置多序列比對參數比對參數Profile多序列比對多序列比對步驟步驟1:先讀入文件:先讀入文件1,并對文件,并對文件1中的序列進行中的序列進行比對,將比對結果進行保存;比對,將比對結果進行保存;然后讀入文件然后讀入文件2,并對文件,并對文件2中的序列進行多序列比對,將比對結果中的序列進行多序列比對,將比對結果進行保存。進行保存。Profile多序列比對多序列比對步驟步驟2:分別讀入文件:分別讀入文件1多序列比對

21、結果多序列比對結果(profile1)及文件)及文件2多序列比對結果(多序列比對結果(profile2) 。Profile多序列比對多序列比對步驟步驟3:將文件:將文件1多序列比對結果及文件多序列比對結果及文件2多序列多序列比對結果進行比對。比對結果進行比對。Clustal WClustalW is a general purpose multiple sequence alignment program for DNA or proteins. It produces biologically meaningful multiple sequence alignments of diverg

22、ent sequences. It calculates the best match for the selected sequences, and lines them up so that the identities, similarities and differences can be seen. Evolutionary relationships can be seen via viewing Cladograms or Phylograms. 原理同原理同Clustal X軟件。軟件。Clustal X是是Clustal W的圖形界面版本,的圖形界面版本,在開發了在開發了Cl

23、ustal W之后,之后,Thompson等又再等又再Clustal W基礎上增加基礎上增加了圖形界面便有了了圖形界面便有了Clustal X,它的操作更加直觀簡單。它的操作更加直觀簡單。可下載到可下載到PC機,使用方法同機,使用方法同Clustal X輸出輸出格式格式設定參數設定參數其他多其他多序列比序列比對工具對工具的鏈接的鏈接粘貼序列粘貼序列或以文件的格式上傳或以文件的格式上傳部分參數定義部分參數定義Gap opening penalty:增大數值使:增大數值使 gap 數目減少數目減少Gap extention penalty:增大數值使:增大數值使 gap 長度變短長度變短Weigh

24、t transition:AG 轉換或轉換或 CT 轉換轉換(multiple DNA sequence alignment)Hydrophilic gap:選擇:選擇“on” 將增加形成將增加形成 gap 的機會的機會(multiple protein sequence alignment)Residue-specific gap penalties:選擇:選擇“ on” 將增加在某些氨將增加在某些氨基酸殘基處形成基酸殘基處形成 gap 的機會,而減少在另一些氨基酸殘基處形的機會,而減少在另一些氨基酸殘基處形成成 gap 的機會的機會(multiple protein sequence al

25、ignment)此比對結此比對結果文件可果文件可下載下載Phylip輸出格輸出格式,可用于進式,可用于進化樹構建化樹構建可將輸出結果可將輸出結果重新進行排序重新進行排序以彩以彩色形色形式顯式顯示示Clustal W產生的進化樹。由產生的進化樹。由鄰接法獲得,多沒有經過可鄰接法獲得,多沒有經過可靠性檢驗,不建議直接使用靠性檢驗,不建議直接使用MUSCLE MUSCLE stands for MUltiple Sequence Comparison by Log-Expectation. MUSCLE is claimed to achieve both better average accura

26、cy and better speed than ClustalW2 or T-Coffee (在速度和精在速度和精確性上優于確性上優于clustalw和和T-Coffee), depending on the chosen options.http:/www.ebi.ac.uk/Tools/muscle/以圖形形式顯示聯配結果以圖形形式顯示聯配結果MAFFT個人比較喜歡的軟件個人比較喜歡的軟件可改變序列的輸出順序可改變序列的輸出順序選擇多序列比對策略(自動選擇多序列比對策略(自動的或人工的)的或人工的)若不選擇,則若不選擇,則MAFFT程序可根據輸入的序列情況自動選擇比較合適的策略程序可根據

27、輸入的序列情況自動選擇比較合適的策略調整比對參數調整比對參數可通過可通過blast查詢查詢swissprot數據數據庫搜索同源序列庫搜索同源序列改變序列改變序列格式格式構建的系統樹構建的系統樹圖形化顯示圖形化顯示表示相應表示相應位置上氨位置上氨基酸的保基酸的保守程度守程度自主選擇合適自主選擇合適的比對策略的比對策略作多序列比對時應注意的問題作多序列比對時應注意的問題 多序列比對結果直接影響到接下來的分析結果的準確性,因此,多序列比對結果直接影響到接下來的分析結果的準確性,因此,作多序列比對時應注意:作多序列比對時應注意: 1、根據序列間同源性的高低有針對性的選擇多序列比對工具。、根據序列間同源

28、性的高低有針對性的選擇多序列比對工具。比如比如DIALIGN在序列相似性低時最準確,而在序列相似性低時最準確,而T-Coffee在序列相似在序列相似性高時最準確。性高時最準確。 2、對于同一組序列,應通過不斷調整選擇參數,比如打分矩陣、對于同一組序列,應通過不斷調整選擇參數,比如打分矩陣和和gap opening penalty等,得到多個比對結果,結合等,得到多個比對結果,結合motif和和domain等信息從中選擇準確度最高的比對。等信息從中選擇準確度最高的比對。 3、對比對結果應根據目標蛋白的二級結構、三級結構及保守的、對比對結果應根據目標蛋白的二級結構、三級結構及保守的氨基酸殘基、氨基

29、酸殘基、domain等信息進行適當的人工調整。等信息進行適當的人工調整。比如利用比如利用Se-Al工具工具(http:/tree.bio.ed.ac.uk/software/seal/)。 Se-Al is an application for creating multiple sequence alignments from nucleotide and amino acid sequences. At the moment it does not do any automatic alignments but is intended for the production of hand

30、alignments and for preparing input for alignment programs such as CLUSTAL and phylogeny reconstruction programs such as PHYLIP and PAUP. It is particularly useful for manipulating protein coding DNA/RNA sequences.若認為有必要對產生的多序列比對若認為有必要對產生的多序列比對結果進行人工調整,此軟件非常有結果進行人工調整,此軟件非常有用,但目前只有針對蘋果的版本。用,但目前只有針對蘋果的

31、版本。將氨基酸多序列比對轉換成相應的核苷酸比對將氨基酸多序列比對轉換成相應的核苷酸比對設定參數設定參數download多序列比對結果的顯示與編輯多序列比對結果的顯示與編輯BioEdit 可將比對結果保存為不同類型的格式可將比對結果保存為不同類型的格式;以不同顏色或圖形進行顯示;以不同顏色或圖形進行顯示;可對整行整列進行操作;亦可對其中的氨基酸或核苷酸或可對整行整列進行操作;亦可對其中的氨基酸或核苷酸或gap等進行編輯等進行編輯和操作;可計算同源序列間的一致性等等。和操作;可計算同源序列間的一致性等等。GeneDoc打開打開msf文件文件導入其他格式文件導入其他格式文件參數設置參數設置改變字改變

32、字號號Gap的的顯示方顯示方式式是否去掉一致序列是否去掉一致序列等等以不同方式顯示比對結果以不同方式顯示比對結果調整相應參數后,調整相應參數后,以以dashed alignment form顯顯示示將多序列比對結果保存為圖片將多序列比對結果保存為圖片此圖可直接放到文章中使用(植物此圖可直接放到文章中使用(植物NIP2基因的多序列比對結果)基因的多序列比對結果)系統進化樹的構建系統進化樹的構建從物種的一些分子特性出發,從而了解物種之間從物種的一些分子特性出發,從而了解物種之間的的生物系統發生生物系統發生的關系。的關系。 蛋白和核酸序列通過序列同源性的比較進而了解基因的進化以及生物系統發生的內在規

33、律。分子進化研究的目的分子進化研究的目的從分子水平上研究生物的進化具有以下優點:從分子水平上研究生物的進化具有以下優點:(1)對分子進化的分析可以數量化,因此根據生物所具有)對分子進化的分析可以數量化,因此根據生物所具有的核酸和蛋白質在結構上的差異程度,比其他方法更精確地的核酸和蛋白質在結構上的差異程度,比其他方法更精確地估測生物種類的進化時期和速度;估測生物種類的進化時期和速度;(2)它是研究微生物進化的有效方法;)它是研究微生物進化的有效方法;(3)它可以比較親緣關系疏遠的類型之間的進化信息,這)它可以比較親緣關系疏遠的類型之間的進化信息,這是其他方法難以做到的。是其他方法難以做到的。 系

34、統發生與系統發生學系統發生與系統發生學 系統發生(phylogeny) 是指生物形成或進化的歷史 系統發生學(phylogenetics) 研究物種之間的進化關系 系統發育樹是什么? 對一組實際對象的世系關系的描述(如基因,物種等)。末端物種頂端中間節點中間枝條根末端分支葉子節點AB CDEFG樹只代表分支的拓撲結構FGCDEAB分子進化研究的基礎 核苷酸和氨基酸序列中含有生物進化歷史的全部信息。 在各種不同的發育譜系及足夠大的進化時間尺度中,許多序列的進化速率幾乎是恒定不變的。(分子鐘理論, 1965 ) 雖然很多時候仍然存在爭議,但是分子進化確實能闡述一些生物系統發生的內在規律。 直系同源

35、(orthologs): 同源的基因是由于共同的祖先基因進化而產生的. 旁系同源(paralogs): 同源的基因是由于基因復制產生的. (以上定義源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. Syst. Zool. 19, 99113) 直系同源與旁系同源paralogsorthologsparalogsorthologsErik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes

36、 TRENDS in Genetics Vol.18 No.12 December 2002 以上兩個概念代表了兩個不同的進化事件。 用于分子進化分析中的序列必須是直系同源必須是直系同源的,才能真實反映進化過程。Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Bacterium 1Bacterium 3Bacterium 2Eukaryote 1Eukaryote 4Eukaryote 3Eukaryote 2Phylograms show branch order and branch

37、lengths進化樹,有分支和支長信息2.進化分支圖,進化樹進化分支圖,進化樹Cladograms show branching order - branch lengths are meaningless進化分支圖,只用分支信息,無支長信息。3.有根樹,無根樹,外圍群有根樹,無根樹,外圍群 (1)如果是一棵有根樹,則樹根代表在進化歷史上是最早的、并且與其它所有分類單元都有聯系的分類單元; (2)如果找不到可以作為樹根的單元,則系統發生樹是無根樹。所謂無根,是指樹系中代表時間上最早的部位(最早的共同祖先)不能確定,只反映分類單元之間的距離而不涉及誰是祖先問題。 (3)從根節點出發到任何一個節點

38、的路徑指明進化時間或者進化距離。Rooted by outgrouparchaeaarchaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotebacteria outgrouprooteukaryoteeukaryoteeukaryoteeukaryote無根樹無根樹archaeaarchaeaarchaeaMonophyletic group(單源群單源群)Monophyleticgroup3.有根樹,無根樹,外圍群有根樹,無根樹,外圍群有根樹有根樹外圍群外圍群 4.基因樹,物種樹基因樹,物種樹We often assume that gene tre

39、es give us species treesabcABCGene treeSpecies treeWe Know the “Species Tree”ratmousehumanFor exampleTherfore We Can Infer Gene Losses, Deletions, (or lack of detection)ratmousehumanratmousehumanratmousehuman基因基因丟失丟失兩種老鼠間的親緣兩種老鼠間的親緣關系相對比較近關系相對比較近系統發育樹重建分析步驟多序列比對(自動比對,手工比對)建立取代模型(建樹方法)建立進化樹進化樹評估系統發育樹

40、重建的基本方法 最大簡約法(maximum parsimony,MP) 距離法(distance) 最大似然法(maximum likelihood,ML)最大簡約法(MP)最大簡約法(maximum parsimony,MP)最早源于形態性狀研究,現在已經推廣到分子序列的進化分析中。最大簡約法的理論基礎是奧卡姆(Ockham)哲學原則,這個原則認為:解釋一個過程的最好理論是所需假設數目最少的那一個。對所有可能的拓撲結構進行計算,對所有可能的拓撲結構進行計算,并計算出所需替代數最小的那個拓撲結構,作并計算出所需替代數最小的那個拓撲結構,作為最優樹。為最優樹。 優點:最大簡約法不需要在處理核苷酸

41、或者氨基酸替代的時不需要在處理核苷酸或者氨基酸替代的時候引入假設(替代模型)。候引入假設(替代模型)。此外,最大簡約法對于分析某些特殊的分子數據如插入、缺失等序列有用。最大簡約法(MP)缺點:在分析的序列位點上沒有回復突變或平行突變,且被檢驗的序列位點數很大的時候,最大簡約法能夠推導獲得一個很好的進化樹。然而在分析序列上存在較多的回復突變或平行突變,而被檢驗的序列位點數又比較少的時候,最大簡約法可能會給出一個不合理的或者錯誤的進化樹推導結果。最大簡約法適用于以下條件下的系統樹構建: 所要比較的序列的堿基差別小,所要比較的序列的堿基差別小,即同源性高即同源性高; 對于序列上的每一個堿基有近似相等

42、的變異率;對于序列上的每一個堿基有近似相等的變異率; 沒有過多的顛換和轉換的傾向;沒有過多的顛換和轉換的傾向; 所檢驗的序列的堿基數目較多(大于幾千個堿基)。所檢驗的序列的堿基數目較多(大于幾千個堿基)。 總之,最大簡約法適合構建比對序列較長,分類群的進總之,最大簡約法適合構建比對序列較長,分類群的進化位置靠近的系統樹。化位置靠近的系統樹。距離法距離法又稱距離矩陣法,首先通過各個物種之間的比較,根根據一定的假設(進化距離模型)推導得出分類群之間的進化距離,據一定的假設(進化距離模型)推導得出分類群之間的進化距離,構建一個進化距離矩陣。構建一個進化距離矩陣。進化樹的構建則是基于這個矩陣中的進化距

43、離關系 。計算序列的距離,建立距離矩陣通過距離矩陣建進化樹由進化距離構建進化樹的方法有很多,常見有:1.Fitch-Margoliash Method(FM法)2. Neighbor-Joining Method (NJ法/鄰接法)3. Neighbors Relaton Method(鄰居關系法)4.Unweighted Pair Group Method (UPGMA法)通過矩陣建樹的方法最大似然法(ML)最大似然法(maximum likelihood,ML)最早應用于系統發育分析是在對基因頻率數據的分析上,后來基于分子序列的分析中也已經引入了最大似然法的分析方法。最大似然法分析中,選取

44、一個特定的替代模型來分析給選取一個特定的替代模型來分析給定的一組序列數據,使得獲得的每一個拓撲結構的似然率定的一組序列數據,使得獲得的每一個拓撲結構的似然率都為最大值,然后再挑出其中似然率最大的拓撲結構作為都為最大值,然后再挑出其中似然率最大的拓撲結構作為最優樹最優樹。在最大似然法的分析中,所考慮的參數并不是拓撲結構而是每個拓撲結構的枝長,并對似然率求最大值來估計枝長 。最大似然法的建樹過程是個很費時的過程,因為在分析過程中有很大的計算量,每個步驟都要考慮內部節點的所有可能性。最大似然法是一個比較成熟的參數估計的統計學方法,具有很好的統計學理論基礎,在當樣本量很大的時候,似然法可以獲得參數統計

45、的最小方差。只要使用了一個合理的、正確的替代模型,最大似然法可以推導出一個很好的進化樹結果。 最大似然法(ML)所以在構建進化樹之前,首先要對目標多序列聯配進行分析,所以在構建進化樹之前,首先要對目標多序列聯配進行分析,以選擇最佳的建樹模型以選擇最佳的建樹模型由于最大似然法的分析過程需要耗費較多的時間,針對這種情況,發展出了許多優化的可以加快最大似然法尋找最優樹的搜索方法,如啟發式搜索,分枝交換搜索等。最大似然法具有堅實的統計學理論基礎,充分的使用了分析序列中的信息資源,只要采用了合理的替代模型,可以得出很好的進化樹分析結果。最大似然法(ML)important構建進化樹的一般原則 1. 可靠

46、的待分析數據(核苷酸或蛋白質序列) 2. 準確的多序列比對 3. 選擇合適的建樹方法: A. 序列相似程度高,MP首先 B. 序列相似程度較低,ML首先 C. 序列相似程度太低,無意義 4. 一般采用兩種及以上方法構建進化樹,無顯著區別可接受構建進化樹的一般原則 (2)選擇外類群(Outgroup)選擇一個或多個已知與分析序列關系較遠的序列作為外類群外類群可以輔助定位樹根外類群序列必須與剩余序列關系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。bacteria outgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarcha

47、eaarchaea外圍群外圍群進化樹的可靠性分析進化樹的可靠性分析(一)自舉法(Bootstrap Method)從排列的多序列中隨機又放回的抽取某一列,構成相同長度的新的排列序列重復上面的過程,得到多組新的序列對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性 自舉檢驗自舉檢驗因其具有較嚴格的統計學背景,加之計算機因其具有較嚴格的統計學背景,加之計算機模擬技術的迅速發展,該方法模擬技術的迅速發展,該方法已經成為系統發生分析中很已經成為系統發生分析中很受歡迎的算法受歡迎的算法,并在分子進化與系統發育分析研究中發揮,并在分子進化與系統發育分析研究中發揮愈來愈重要的作用。

48、愈來愈重要的作用。但自舉檢驗也有幾點不足之處:但自舉檢驗也有幾點不足之處: 非常耗時;非常耗時; 次數太少時重復產生的結果常常不可靠;次數太少時重復產生的結果常常不可靠;具有低估置信度的傾向。具有低估置信度的傾向。(二)參數檢驗(二)參數檢驗(parameter test) 參數檢驗是簡約分析法構建的系統樹的常用檢驗方法參數檢驗是簡約分析法構建的系統樹的常用檢驗方法。該檢。該檢驗方法假設比對中的各個信息位點彼此獨立而且等價,并用兩驗方法假設比對中的各個信息位點彼此獨立而且等價,并用兩棵系統樹的最小替換數之差棵系統樹的最小替換數之差D作為檢驗統計量,分別考慮每個信作為檢驗統計量,分別考慮每個信息

49、位點,按下式計算反映息位點,按下式計算反映D變化程度的變化程度的V值:值:V=n/(n-1)Di -(1/n)(Dk)2 其中其中n是信息位點的數目。是信息位點的數目。n-1個自由度的個自由度的t檢驗,可以用來檢驗空假設,檢驗,可以用來檢驗空假設,即兩棵系統樹的替換數相等的情況:即兩棵系統樹的替換數相等的情況:t=(D/n)/(v) 1/2n1/2常見的分子進化分析程序1. Phylip 由華盛頓大學遺傳學系開發,是一個免費的系統發育分析軟件包,可以通過以下地址下載。/phylip.html2. PAUP* 最早是在

50、蘋果機上開發的具有菜單界面的進化分析軟件,早先版本只有MP法,后續版本已經包括距離法和ML法,現今有mac,win,linux等多種版本,該軟件不是免費軟件,使用者需要向開發者購買。MP法可適用于蛋白序列,其它法需用核苷酸序列。3. MEGA4. Phyml (最大似然法建樹最大似然法建樹)5. Tree puzzle6. Mrbayes (貝葉斯法建樹貝葉斯法建樹) 。Phylip軟件包介紹軟件包介紹 Phylip是一個免費的系統發生(phylogenetics)分析軟件包。以下鏈接可以下載: http:/evolution.genetics,/phylip.ht

51、ml 由華盛頓大學遺傳學系開發,1980年首次公布,目前的版本是3.6(2000年6月)。 Phylip包含了35個獨立的程序,這些獨立的程序都實現特定的功能,這些程序基本上包括了系統發生分析的所有方面。 Phylip有多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。 Phylip是目前最廣泛使用的系統發生分析程序,主要包括一下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進化樹繪制組。分子序列組: 1.蛋白質序列:protpars,proml,promlk, protdist 2.核酸序列:dnapenny,dnapa

52、rs, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacompPhylip軟件包分組介紹距離矩陣組:Fitch,kitsch,neighbor基因頻率組:Gendist,contml離散字符組Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip軟件包分組介紹進化樹繪制組:drawtree,drawgram其他:restdist,restml,seqboot,contrast treedist,consense,retree Phylip軟件包的文檔是非常詳細的,對于每個獨立的程序,都

53、有一個獨立的文檔,詳細的介紹了該程序的使用及其說明。 此外,Phylip軟件包還包括程序的源代碼(c語言)。Phylip軟件包的文檔Phylip軟件包的應用1、根據你的分析數據,選擇適當的程序 如,你分析的是DNA數據,就在核酸序列分析類中選擇程序(dnapenny,dnapars, dnamove,dnaml,dnamlk, dnainvar,dnadist,dnacomp ); 如果分析的是離散數據,如突變位點數據,就在離散字符組里面選擇程序。2、選擇適當的分析方法 如你分析的是DNA數據,可以選擇簡約法(DNAPARS),似然法(DNAML, DNAMLK),距離法等(DNADIST)。

54、Phylip軟件包的應用3、進行分析 選擇好程序后,執行,讀入分析數據,選擇適當的參數,進行分析,結果自動保存為outfile,outtree。 Outfile是一個記錄文件,記錄了分析的過程和結果,可以直接用文本編輯器(如寫字板)打開。outtree是分析結果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeview,MEGAPhylip軟件包的應用實例實例利用距離法構建進化樹利用距離法構建進化樹具體步驟:具體步驟:Seqboot.exeProtdist.exe (dnadist)Neighbor.exeConsensus.exe步驟一步驟一 用用PHY

55、LIP構建系統發育樹構建系統發育樹 首先使用SEQBOOT.EXE工具輸入多序列比對文檔lesson7.phySeqboot 工具工具輸入輸入lesson7.phy 在Random number seed (must be odd) ?提示下輸入任何4N+1的數字, 如101 其他選項設置默認,輸入Y,回車 運算并生成outfile文件隨機種子數隨機種子數輸入輸入4N+1的數字的數字統計檢驗的方法統計檢驗的方法重復抽樣的次數重復抽樣的次數10010000接受默認設置接受默認設置輸入輸入Y 將outfile更名results1后,雙擊打開PROTDIST.EXE工具把把outfile更名為更名為

56、results1打開打開PROTDIST工具工具 輸入results1 選擇修改M選項,輸入100 其他設置默認,輸入Y,回車 計算生成新的outfile文件輸入輸入results1距離模型距離模型是否處理多樣本數是否處理多樣本數據集,默認為否據集,默認為否選擇選擇M,要處理多樣本數據集,要處理多樣本數據集輸入多樣本數據集的樣本集數輸入多樣本數據集的樣本集數目,與目,與Seqboot中的設置要一致中的設置要一致M選項以發生改變選項以發生改變其他設置默認,輸入其他設置默認,輸入Y 將outfile更名results2后,雙擊打開NEIGHBOR.EXE工具把把outfile更名為更名為resul

57、ts2打開打開NEIGHBOR工具工具 輸入results2 修改O選項,輸入23 選擇修改M選項,輸入100 其他設置默認,輸入Y,回車 計算生成outfile和treefile文件輸入輸入results2選用的距離法選用的距離法選擇外類群選擇外類群是否處理多樣本數據集,默認為否是否處理多樣本數據集,默認為否輸入輸入O,要設置外類群,要設置外類群輸入輸入23,表示是第,表示是第23條序列作為外類群條序列作為外類群選擇選擇M,要處理多樣本數據集,要處理多樣本數據集,輸入多樣本數據集的樣本集數目,輸入多樣本數據集的樣本集數目,與前面步驟中的設置要一致與前面步驟中的設置要一致其他設置默認,輸入其他

58、設置默認,輸入Youtfiletreefile構建的系統構建的系統發育樹,每發育樹,每個樣本對應個樣本對應一個系統樹一個系統樹 將treefile更名results3后,雙擊打開CONSENSE.EXE工具把把treefile更名為更名為results3打開打開CONSENSE工具工具 輸入results3 修改O選項,輸入23 默認R選項,構建無根樹 其他設置默認,輸入Y,回車 計算生成outfile和treefile文件輸入輸入O,設置外類群,設置外類群,輸入輸入23,表示是第,表示是第23條序列作為外類群條序列作為外類群輸入輸入results3選擇外類群選擇外類群構建無根樹構建無根樹其他

59、設置默認,輸其他設置默認,輸入入Y 使用TreeView打開treefileTreeView http:/taxonomy.zoology.gla.ac.uk/rod/treeview/1.6.6/treev32.zip外類群外類群AtGLRClade IIAtGLRClade IAtGLRClade III哺乳動物哺乳動物Bootstrap value利用利用MEGA建樹建樹先將多序列比對轉換成先將多序列比對轉換成MEGA格式格式轉換成轉換成MEGA格式格式后,將文件保存到后,將文件保存到PC機上機上正確選擇輸正確選擇輸入文件類型入文件類型根據多序列比對根據多序列比對文件里序列的類文件里序列的類型型(蛋白質或核苷蛋白質或核苷酸酸)進行選擇進行選擇打開打開.meg文件文件.meg文件文件已打開已打開選擇建樹方法選擇建樹方法這里選擇了這里選擇了NJ法法建樹,同時用建樹,同時用bootstrap法進行法進行可靠性檢測可靠性檢測參數設置:參數設置:Gaps/Missing Data: pairwise deletionModel: 通常情況下選通常情況下選poisson correction,若序列間同,若序列間同源性較低,則選擇源性較低,則選擇p-distance生成系統進化樹,生成系統進化樹,這里是無根樹,這里是無根樹,若設置外圍群若設置外圍群(outgroup)即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論