應用PHYLIP構建進化樹的完整詳細過程4頁_第1頁
應用PHYLIP構建進化樹的完整詳細過程4頁_第2頁
應用PHYLIP構建進化樹的完整詳細過程4頁_第3頁
應用PHYLIP構建進化樹的完整詳細過程4頁_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、一、獲取序列一般自己通過測序得到一段序列(已知或未知的都可以),通過NCBI的BLAST獲取相似性較高的一組序列,下載保存為FASTA格式。用BIOEDIT等軟件編輯序列名稱,注意PHYLIP在DOS下運行,文件名不能超過10位,超過的會自動截留前面10位。二、多序列比對目前一般應用CLASTAL X進行,注意輸出格式選用PHY格式。生成的指導樹文件(DND文件)可以直接用TREEVIEW打開編輯,形式上和最終生成的進化樹類似,但是注意不是真正的進化樹。三、構建進化樹1.N-J法建樹依次應用PHYLIP軟件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSE

2、NSE.EXE打開。具體步驟如下:(1)打開seqboot.exe輸入文件名:輸入你用CLASTAL X生成的PHY文件(*.phy)。R為bootstrap的次數,一般為1000 (設你輸入的值為M,即下兩步DNADIST.EXE、NEIGHBOR.EXE中的M值也為1000)odd number: (4N+1)(eg: 1、5、9)改好了y得到outfile(在phylip文件夾內)改名為2(2)打開Dnadist.EXE輸入2修改M值,再按D,然后輸入1000(M值)y得到outfile(在phylip文件夾內)改名為3 (3)打開Neighboor.EXE輸入3M=1000(M值)按Y

3、得到outfile和outtree(在phylip文件夾內)改outtree為4,outfile改為402(4)打開consense.exe輸入4y得到outfile和outtree(在phylip文件夾內)Outfile可以改為*.txt文件,用記事本打開閱讀。四、進化樹編輯和閱讀outtree可改為*.tre文件,直接雙擊在treeview里看;也可以不改文件擴展名,直接用treeview、PHYLODRAW、NJPLOT等軟件打開編輯。TREEVIEW可以顯示BOOTSTRAN值,序列較多(60條以上)的時候打開直接顯示有明顯的重疊,可以在打印預覽中顯示,或輸出為EMF WMF圖片文件看

4、,但是序列較多時BOOTSTRAN值的顯示位置比較亂,和序列名稱有重疊。PHYLODRAW的編輯功能較強,可以自由調節X、Y軸的長度。輸出格式為BMP、PS格式。缺點是不能直接顯示BOOTSTRAN值,包括打開TREEVIEW輸出的NEX文件,而且輸出的BMP文件不全,類似截屏文件,我用PHOTOSHOP進行拼接合成,添加BOOTSTRAN值和注解符號等。據說也可以將PS文件用記事本打開,改變其中的字號,然后通過ADOBEDISTRILLOR將PS轉化為PDF,就可以解決問題。如果發現還有重疊,可以再次改變PS文件中的字號大小,直到合適為止。 NJPLOT可以顯示BOOTSTRAN值和分值長度

5、。但是不能調節圖片X、Y軸的長度。建MP,ML樹將Dnadist和Neighboot兩步分別改為Dnapars和Dnaml,其余步驟相同。據說ML法序列較多是非常耗時,我沒有嘗試。因為我的序列較多。也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成進化樹,TREE菜單輸出格式選項(OUTPUT FORMAT OPTION)中的BOOTSTRAN LABELS ON 選NODE(節點)。在treeview里,選擇tree菜單 ,然后把show internal edge lables 的選項打勾了,直接打開生成的文件bootstrap的值就可以顯示出來。下面介紹幾個軟件的使

6、用。首先是 PHYLIP。其是多個軟件的壓縮包,下載后雙擊則自動解壓。當你解壓后就揮發現PHYLIP 的功能極其強大,主要包括五個方面的功能軟件:i,DNA 和蛋白質序列數據的分析軟件。ii,序列數據轉變成距離數據后,對距離數據分析的軟件。 iii,對基因頻率和連續的元素分析的軟件。iv,把序列的每個堿基/氨基酸獨立看待(堿基/氨基酸只有0和1的狀態時,對序列進行分析的軟件。v,按照 DOLLO 簡約性算法對序列進行分析的軟件。vi,繪制和修改進化樹的軟件。在此,我主要對前兩種功能軟件進行說明。   我們現在有幾個序列如下: Mo3     &

7、#160; ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT Mo5       ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo6       ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo7       ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

8、Mo8       ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT Mo9       ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT Mo12      ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT Mo13      ATGTATCTCGTACATTACTGCCAGCC

9、ACCATGAATATTGTACGGTACCAT 要對這8個序列進行進化樹分析,按照上面的步驟,首先用 CLUSTALX排列序列,輸出格式為 *.PHY。用記事本打開如下圖: 圖中的 8 和 50 分別表示 8 個序列和每個序列有 50 個堿基。然后,打開軟件SEQBOOT,如下圖: 按路徑輸入剛才生成的 *.PHY文件,并在Random number seed (must be odd) ?的下面輸入一個4N+1 的數字后,屏幕顯示如下: 圖中的 D、J、R、I、O、1、2 代表可選擇的選項,鍵入這些字母,程序的條件就會發生改變。D選項無須改變。J 選項有三種條件可以選擇,分別是Bootst

10、rap、Jackknife 和 Permute。文章上面提到用 Bootstraping 法對進化樹進行評估,所謂Bootstraping 法就是從整個序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成了許多序列。一個多序列組也就可以變成許多個多序列組。根據某種算法(最大簡約性法、最大可能性法、除權配對法或鄰位相連法)每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比較,按照多數規則(majority-rule)我們就會得到一個最“逼真”的進化樹。Jackknife則是另外一種隨機選取序列的方法。它與Bootstrap法的區別是不將剩下

11、的一半序列補齊,只生成一個縮短了一半的新序列。Permute是另外一種取樣方法,其目的與 Bootstrap和Jackknife法不同,這里不再介紹。R 選項讓使用者輸入 republicate 的數目。所謂 republicate 就是用 Bootstrap 法生成的一個多序列組。根據多序列中所含的序列的數目的不同可以選取不同的republicate。當我們設置好條件后,鍵入 Y按回車。得到一個文件outfile  Outfile用記事本打開如下: 這個文件包括了100個republicate。 打開DNAPARS(最大簡約性法)或DNAML(最大可能性法)軟件。將剛才生

12、成的outfile文件更名后輸入。如下圖: 選項O是讓使用者設定一個序列作為outgroup。一般選擇一個親緣關系與所分析序列組很接近的序列作為outgroup(本例子不選outgroup),outgroup 選擇的好壞將直接影響到最后的進化樹的好壞。選項 M 是輸入剛才設置的 republicate 的數目。設置好條件后,鍵入 Y按回車。生成兩個文件outfile和treefile。 Outfile打開如下圖: 該文件包括了227個進化樹。Treefile可以用TREEVIEW 軟件打開同樣包含了這227個進化樹。 打開CONSENSE 軟件,將剛才生成的treefile文件更名后輸入。如下

13、圖: 鍵入 Y 按回車。生成兩個文件 outfile 和 treefile。Treefile 用 TREEVIEW 打開,如下圖: Outfile打開如下圖: 我們看出兩個樹是同樣的。但在 outfile 的樹上的數字表示該枝條的 Bootstrap 支持率(除以100.6)。到現在,8個序列的進化樹分析(最大簡約法)已經完成。   如果要用鄰位相連法對這 8 個序列進行分析的話,也首先執行 SEQBOOT 軟件將這8個序列變成100個republicate。然后,打開DNADIST軟件,把SEQBOOT生成的文件輸入,如下圖: 選項 D 有四種距離模式可以選擇,分別是 K

14、imura 2-parameter、Jin/Nei、Maximum-likelihood 和 Jukes-Cantor。選項 T 一般鍵入一個 15-30 之間的數字。選項M 鍵入100。運行后生成文件如下圖: 這個文件包含了與輸入文件相同的100個republicate,只不過每個 republicate是以兩兩序列的進化距離來表示。文件中的每個republicate都省略了第一排的Mo3 Mo5  Mo6   Mo7   Mo8  Mo9   Mo12   Mo13。以這個輸出文件為輸入文件,執行NEIGHBOR 軟件。如下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論