分子進化與系統發育分析_第1頁
分子進化與系統發育分析_第2頁
分子進化與系統發育分析_第3頁
分子進化與系統發育分析_第4頁
分子進化與系統發育分析_第5頁
已閱讀5頁,還剩106頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分子進化與系統發育分析第一頁,共一百一十一頁,編輯于2023年,星期五TreeofLife

重建所有生物的進化歷史并以系統樹的形式加以描述第一節關于分子進化簡介第二頁,共一百一十一頁,編輯于2023年,星期五生物進化理論達爾文進化論:進化:變異的遺傳自然選擇:解釋為何演變發生的機制種群中個體變異的遺傳學基礎:孟德爾遺傳孟德爾豌豆實驗:雜交的表現特征是基因表達的結果,而不是基因雜交遺傳中性進化論:并非所有種群中保留下來的突變都由自然選擇所形成;大多數突變是中性或接近中性,不妨礙種群的生存與繁衍。第三頁,共一百一十一頁,編輯于2023年,星期五研究生物進化歷史的途徑1.最確鑿證據是:生物化石!——零散、不完整2.比較形態學、比較解剖學和生理學等:確定大致的進化框架——細節存很多的爭議第四頁,共一百一十一頁,編輯于2023年,星期五分子進化1964年,LinusPauling提出分子進化理論;從物種的一些分子特性出發,從而了解物種之間的生物系統發生的關系。

發生在分子層面的進化過程:DNA,RNA和蛋白質分子

基本假設:核苷酸和氨基酸序列中含有生物進化歷史的全部信息。第五頁,共一百一十一頁,編輯于2023年,星期五分子進化的模式DNA突變的模式:替代,插入,缺失,倒位;

核苷酸替代:轉換(Transition)&顛換(Transversion)

基因復制:多基因家族的產生以及偽基因的產生A.單個基因復制–重組或者逆轉錄B.染色體片斷復制C.基因組復制第六頁,共一百一十一頁,編輯于2023年,星期五DNA突變的模式替代插入缺失倒位第七頁,共一百一十一頁,編輯于2023年,星期五核苷酸替代:轉換&顛換

轉換:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代

顛換:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代第八頁,共一百一十一頁,編輯于2023年,星期五基因復制:單個基因復制重組逆轉錄第九頁,共一百一十一頁,編輯于2023年,星期五基因復制:基因組復制釀酒酵母克魯雄酵母研究結果:克魯雄酵母中的同源基因數量與釀酒酵母相比為1:2第十頁,共一百一十一頁,編輯于2023年,星期五物種分類及關系:從物種的一些分子特性出發,構建系統發育樹,進而了解物種之間的生物系統發生的關系——treeoflife

大分子功能與結構的分析:同一家族的大分子,具有相似的三級結構及生化功能,通過序列同源性分析,構建系統發育樹,進行相關分析;功能預測

進化速率分析:例如,HIV的高突變性;哪些位點易發生突變?分子進化研究的目的第十一頁,共一百一十一頁,編輯于2023年,星期五第十二頁,共一百一十一頁,編輯于2023年,星期五基于16S/18S核糖體RNA序列比對得到的古細菌系統發育樹生命三界:細菌(Eubacteria)古細菌(Archaebacteria)真核(Eukaryotes)第十三頁,共一百一十一頁,編輯于2023年,星期五TreeofLife:16SrRNA第十四頁,共一百一十一頁,編輯于2023年,星期五OutofAfrica53個人的線粒體基因組(16,587bp)人類遷移的路線第十五頁,共一百一十一頁,編輯于2023年,星期五同源性與相似性相似性(Similarity)序列比對過程中用來描述檢測序列和目標序列之間相似DNA堿基或氨基酸殘基序列所占比例;定量描述;同源性(Homology)兩個基因或蛋白質序列具有共同祖先的結論;定性判斷;相似不一定同源,同源不一定相似。氨基酸序列相似性超過30%,很可能同源。第十六頁,共一百一十一頁,編輯于2023年,星期五兩種同源物:即垂直方向的(orthology)與水平

方向的(paralogy)。直系同源(orthology)是比較基因組學中最重要的定義。直系同源的定義是:(1)在進化上起源于一個始祖基因并垂直傳遞(verticaldescent)的同源基因;(2)分布于兩種或兩種以上物種的基因組;(3)功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換;(4)結構相似;(5)組織特異性與亞細胞分布相似。第十七頁,共一百一十一頁,編輯于2023年,星期五鑒定直系同源的實際操作標準(practicalcriteria)為:

如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認是直系同源,則要求:(1)A‘的產物比任何在基因組Ⅱ中所發現的其它基因產物都更相似于A產物;(2)A‘與A的相似程度比在任何一個親緣關系較遠的基因組中的任一基因都要高;(3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較,即含有相似以至于相同的模序(motif)第十八頁,共一百一十一頁,編輯于2023年,星期五旁系同源

(paralogy)基因是指同一基因組(或同系物種的基因組)中,由于始祖基因的加倍而橫向(horizontal)產生的幾個同源基因。

即兩個基因在同一物種中,通過至少一次基因復制的事件而產生。常常具有不同功能。第十九頁,共一百一十一頁,編輯于2023年,星期五paralogsorthologs直系同源物vs.旁系同源物第二十頁,共一百一十一頁,編輯于2023年,星期五Orthologs&Paralogs

(直系同源與旁系同源)WormFlyHuman1Human2Yeast1Yeast2OrthologsParalogsGeneduplicationeventsSpeciationeventsParalogs第二十一頁,共一百一十一頁,編輯于2023年,星期五第二十二頁,共一百一十一頁,編輯于2023年,星期五直系與旁系的共性是同源,都源于各自的始祖基因。其區別在于:在進化起源上,直系同源是強調在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴格要求,可能相似,但也可能并不相似(盡管結構上具一定程度的相似),甚至于沒有功能(如基因家族中的假基因)。旁系同源的功能變異可能是橫向加倍后的重排變異或進化上獲得了另一功能。第二十三頁,共一百一十一頁,編輯于2023年,星期五同源物種類Ortholog(直系同源物):兩個基因通過物種形成的事件而產生,或源于不同物種的最近的共同祖先的兩個基因,或者兩個物種中的同一基因,一般具有相同的功能。Paralog(旁系同源物):兩個基因在同一物種中,通過至少一次基因復制的事件而產生。常常具有不同功能。Xenolog(異系同源物):由某一個基因水平轉移事件而得到的同源序列。水平轉移的基因功能主要根據在前后宿主中變化而確定,然而功能卻常常相似。第二十四頁,共一百一十一頁,編輯于2023年,星期五異源基因或水平轉移基因xenologousorhorizontallytransferredgenes第二十五頁,共一百一十一頁,編輯于2023年,星期五序列同源性模型中的進化假設所有的生物都起源于同一個祖先;序列不是隨機產生,而是在進化上,不斷發生著演變;基本假設:序列保守性結構保守性注意:反之未必序列保守性結構保守性第二十六頁,共一百一十一頁,編輯于2023年,星期五第二節密碼子偏好及分析

密碼子(codon):在隨機或者無自然選擇的情況下,各個密碼子出現頻率將大致相等;

密碼子偏好:各個物種中,編碼同一氨基酸的不同同義密碼子的頻率非常不一致;

可能的原因:密碼子對應的同功tRNA豐度的不同-Anticodon第二十七頁,共一百一十一頁,編輯于2023年,星期五標準密碼子第二十八頁,共一百一十一頁,編輯于2023年,星期五大腸桿菌RNA聚合酶第二十九頁,共一百一十一頁,編輯于2023年,星期五大腸桿菌RNA聚合酶(2)

密碼子偏好非常明顯;例如

同為編碼Leu的同義密碼子CUA和CUG,二者出現的次數顯著不等,CUA(1次),CUG(141次);

再如:編碼Arg的四個密碼子CGU,CGC,CGA,CGG,出現次數分別為:89,46,1,0.

提示:對應CGG的同功tRNA可能不存在!第三十頁,共一百一十一頁,編輯于2023年,星期五tRNA&Anticodon

每一個密碼子,對應一個tRNA;tRNA通過Anticodon來識別codon,聯系mRNA和氨基酸序列的合成;

密碼子的使用偏好:由密碼子對應的tRNA的進化及豐度來決定。第三十一頁,共一百一十一頁,編輯于2023年,星期五堿基出現的頻率1.假如:每個核苷酸位點上的替代是隨機發生的,則A,T,C,G出現的頻率應該大致相等。2.實際情況:DNA受到自然選擇的壓力,各個位點的堿基出現頻率并不相等。3.需要解決的問題:A.每個位點上受到什么樣的選擇壓力?B.各個位點的堿基頻率反映了什么樣的規律?4.表征/統計的方法:計算G+C的含量,并進行比較第三十二頁,共一百一十一頁,編輯于2023年,星期五同義替代vs.非同義替代64個密碼子,編碼20個氨基酸GTTGTCGTAGTGCGTCGC脯氨酸P組氨酸H四倍簡并二倍簡并TGGTGC色氨酸W半胱氨酸C同義替代非同義替代第三十三頁,共一百一十一頁,編輯于2023年,星期五DNA序列突變對氨基酸序列的影響

同義(沉默)替代(synonymous/silentsubstitution)仍然為同義密碼子的核苷酸替代如:TATTAC

TyrTyr

非同義替代(nonsynonymoussubstitution)導致產生非同義密碼子的核苷酸替代如:TATAAT

TyrAsn

無義突變(nonsensemutation)導致產生終止密碼子的核苷酸突變如:TATTAA

TyrSTP問題:假設所有密碼子以同一概率出現,上述三種突變的比例?

25%,71%,4%第三十四頁,共一百一十一頁,編輯于2023年,星期五分子進化的理論自然選擇理論:陽性選擇:促進有益突變;定向選擇:固定有益的等位基因;平衡選擇:保持多態性;陰性選擇(凈化選擇):清除有害突變;中性理論:陽性選擇:少有;陰性選擇:普遍存在;中性進化:普遍存在;第三十五頁,共一百一十一頁,編輯于2023年,星期五分子進化的理論1.陽性選擇,適應性進化,達爾文進化:DNA分子顯著出現非同義替代,改變編碼蛋白質的氨基酸組成,并產生新的功能;2.陰性選擇,凈化選擇:DNA分子的同義替代顯著,較少改變蛋白質的氨基酸組成,其原來的功能高度保守;3.中性進化:同義替代與非同義替代比例相當,突變不好不壞,不改變或輕微改變蛋白質的功能。第三十六頁,共一百一十一頁,編輯于2023年,星期五基因的編碼區和非編碼區基因的DNA由編碼區(Codingregion)和非編碼區(Non-codingregion)構成;編碼區可以轉錄信使RNA,進而調控蛋白質的合成;非編碼區不能轉錄成信使RNA,但是它可以調控遺傳信息的表達;原核基因:編碼區全部編碼蛋白質;

真核基因:編碼區分為外顯子和內含子,只有外顯子能編碼蛋白質;第三十七頁,共一百一十一頁,編輯于2023年,星期五分子進化選擇壓力

進化選擇壓力:A.編碼區:陽性選擇1%(決定物種形成、新功能的產生);陰性選擇19%(較少改變蛋白質的氨基酸組成,其原來的功能高度保守);中性進化80%(突變不好不壞)。B.非編碼區:~100%的中性進化第三十八頁,共一百一十一頁,編輯于2023年,星期五編碼區:密碼子1.對于同義的密碼子,第一位少部分可以允許不同,例如,編碼Ser的六個密碼子:TCT,TCC,TCA,TCG,AGT,AGC2.第二位必須相同3.第三位絕大多數可以不同

近似隨機;4.因此:A.第一位:陰性進化占大部分,中性進化占小部分B.第二位:陰性進化C.第三位:陰性進化占小部分,中性進化占大部分第三十九頁,共一百一十一頁,編輯于2023年,星期五密碼子偏好的應用及計算

基本假設:在高表達的基因中,密碼子的選擇,更傾向于使用“優化”的同義密碼子

推論1:給定一個物種的一些高表達的基因,我們可以估算優化的同義密碼子的分布

推論2:接著,我們可以對給定的一個未知基因的序列進行密碼子分布的分析,預測該基因的表達量!

推論3:對于一個表達量很低的基因,我們是否能夠通過將少量的密碼子改變成優化密碼子,從而顯著提高基因的表達量?第四十頁,共一百一十一頁,編輯于2023年,星期五RSCU相對同義密碼子使用度(relativesynonymouscodonusage,RSCU)

定義:觀測到的某一同一密碼子的使用次數,除以“期望”的該密碼子出現次數編碼第i個氨基酸的第j個密碼子的出現次數編碼第i氨基酸的同義密碼子的數目編碼第i個氨基酸的第j個密碼子的RSCU值第四十一頁,共一百一十一頁,編輯于2023年,星期五密碼子相對適應度

Therelativeadaptivenessofacodon

編碼第i個氨基酸的第j個同義密碼子的“相對適應性”:

即該同義密碼子的觀察值,除以編碼該氨基酸的同義密碼子的最大值第四十二頁,共一百一十一頁,編輯于2023年,星期五大腸桿菌&酵母第四十三頁,共一百一十一頁,編輯于2023年,星期五CAI:密碼子適應指數

CodonAdaptationIndexL為基因中所使用的密碼子數CAI值介于0~1之間,該值越大表示偏性越強;CAI值一般用來預測種內基因的表達水平,以及預測外源基因的表達水平。不同物種CAI的計算依賴于各自的參考數據集。第四十四頁,共一百一十一頁,編輯于2023年,星期五大腸桿菌和酵母:部分基因的CAI第四十五頁,共一百一十一頁,編輯于2023年,星期五異源基因:在其他物種中的CAI第四十六頁,共一百一十一頁,編輯于2023年,星期五第三節氨基酸序列的進化演變

分子進化的分析:基于氨基酸序列的分析早于DNA序列

優勢:氨基酸序列更為保守,對年代跨度大的進化分析有幫助;數學模型較DNA遠為簡單p距離:p-distance

泊松校正,d距離第四十七頁,共一百一十一頁,編輯于2023年,星期五P-distance:利用DNA序列數據計算遺傳距離

兩條蛋白質序列之間的氨基酸差異數為nd,序列的氨基酸數目均為n,則P距離:不同物種的血紅蛋白α鏈中差異氨基酸的數目及比例:(長度:140aa)所有的插入/缺失均刪除第四十八頁,共一百一十一頁,編輯于2023年,星期五PC:泊松校正

序列差異的百分比(p)與分歧時間t的關系:t較短的時候,回復突變較少,兩者大致成線性關系;當t較大時,回復突變增多,二者成非線性關系基本假設:令r為某一位點每年的氨基酸替代率,并假設所有位點的r都相同

在時間t年之后,每個位點替代的平均數為:rt

給定一個位點,氨基酸替代數k(k=0,1,2,3,…)的可能性遵循泊松分布,即

因此,某一位點氨基酸不變的概率為第四十九頁,共一百一十一頁,編輯于2023年,星期五泊松距離

祖先序列未知:不知道當前的序列從何演化而來

解決方案:對兩條已經有t年分化的序列,一條序列某位點無替代的概率為:,兩條序列同源位點均無替代概率為:

此概率可用1-p估計:q=1-p;兩個序列間每個位點氨基酸替代總數(d=2rt):d=-ln(1-p),即泊松距離第五十頁,共一百一十一頁,編輯于2023年,星期五P-距離vs.泊松距離p距離和泊松校正(PC)距離隨分歧時間變化的關系第五十一頁,共一百一十一頁,編輯于2023年,星期五第四節分子系統發育分析1.系統發育樹:分子進化樹/分子進化分析2.通過進化樹的構建,分析分子之間的起源關系,預測分子的功能。3.建樹方法:A.最大簡約法(MaximumParsimony)B.距離法(distance-basedmethods)C.最大似然性法(MaximumLikelihood)D.貝葉斯(Bayesian)推斷

第五十二頁,共一百一十一頁,編輯于2023年,星期五祖先節點/樹根內部節點/分歧點,該分支可能的祖先結點分支/世系末端節點

ABCDE代表最終分類,可以是物種,群體,或者蛋白質、DNA、RNA分子等系統發育樹:術語第五十三頁,共一百一十一頁,編輯于2023年,星期五TaxonATaxonBTaxonCTaxonD116遺傳變化TaxonATaxonBTaxonCTaxonD時間TaxonATaxonBTaxonCTaxonD無意義分支圖

進化樹

時間度量樹以上三種類型的系統發育樹表示相同的分支狀況,相同的進化關系系統發育樹:三種類型遺傳變化無意義時間遺傳變化無意義以上三種類型的系統發育樹表示相同的分支狀況,相同的進化關系時間遺傳變化無意義以上三種類型的系統發育樹表示相同的分支狀況,相同的進化關系時間遺傳變化無意義分支圖

進化樹

時間度量樹第五十四頁,共一百一十一頁,編輯于2023年,星期五樹只代表分支的拓撲結構ABCDEFGFGCDEAB第五十五頁,共一百一十一頁,編輯于2023年,星期五通過外類群來確定樹根根bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根樹外類群無根樹,有根樹,外類群通過外類群來確定樹根有根樹外類群通過外類群來確定樹根有根樹外類群通過外類群來確定樹根有根樹eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea無根樹第五十六頁,共一百一十一頁,編輯于2023年,星期五無根樹和有根樹:潛在的數目#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量急劇增加,因此,目前算法都為優化算法,不能保證最優解第五十七頁,共一百一十一頁,編輯于2023年,星期五多序列比對(自動比對,手工校正)選擇建樹方法以及替代模型建立進化樹進化樹評估系統發育樹重建分析步驟第五十八頁,共一百一十一頁,編輯于2023年,星期五1.最大簡約法(maximumparsimony,MP)適用序列有很高相似性時2.距離法(distance)適用序列有較高相似性時3.最大似然法(maximumlikelihood,ML)可用于任何相關序列集合計算速度:距離法>最大簡約法>最大似然法系統發育樹重建的基本方法第五十九頁,共一百一十一頁,編輯于2023年,星期五1.最大簡約法(MP)

根據信息位點提供的各序列間的替換情況,在所有可能的樹中篩選含最小替換數的樹的方法。理論基礎為奧卡姆剃刀(Ockham)原則:計算所需替換數最小的那個拓撲結構,作為最優樹。

在分析的序列位點上沒有回復突變或平行突變,且被檢驗的序列位點數很大的時候,最大簡約法能夠推導獲得一個很好的進化樹。

優點:不需要在處理核苷酸或者氨基酸替代的時候引入假設(替代模型)

缺點:分析序列上存在較多的回復突變或平行突變,而被檢驗的序列位點數又比較少的時候,可能會給出一個不合理的或者錯誤的進化樹推導結果。第六十頁,共一百一十一頁,編輯于2023年,星期五信息位點:能將所有可能的樹區別出來的位點。

信息位點是指那些至少存在2個不同堿基/氨基酸且每個不同堿基/氨基酸至少出現兩次的位點。信息位點

(Sitesareinformative)第六十一頁,共一百一十一頁,編輯于2023年,星期五第六十二頁,共一百一十一頁,編輯于2023年,星期五上例Position5,7,9為信息位點;

基于position5的三個MP樹:Tree1長度為1,Tree2&3長度為2Tree1最為簡約:總長=4

Tree2長5;Tree3長6

計算結果:MPtree的最優結果為tree1第六十三頁,共一百一十一頁,編輯于2023年,星期五2.距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據一定的假設(進化距離模型)推導得出分類群之間的進化距離,構建一個進化距離矩陣。再依據進化距離,分別依次將序列合并聚類,構建進化樹。第六十四頁,共一百一十一頁,編輯于2023年,星期五簡單的距離矩陣第六十五頁,共一百一十一頁,編輯于2023年,星期五由進化距離構建進化樹的方法有很多,常見有:(1)Fitch-MargoliashMethod(FM法):對短支長非常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長,最通用的距離方法(3)NeighborsRelatonMethod(鄰居關系法)(4)UnweightedPairGroupMethodwithArithmeticMean(UPGMA,非加權組平均法)通過距離矩陣建樹的方法第六十六頁,共一百一十一頁,編輯于2023年,星期五(1)Fitch-Margoliash方法(FM法)=>D和E最接近!DEABCedm示例第六十七頁,共一百一十一頁,編輯于2023年,星期五分成三組:D,E,以及ABC(1)FM法示例第六十八頁,共一百一十一頁,編輯于2023年,星期五DE距離=d+e=10(1)D到ABC間的平均距離=d+m=32.7(2)E到ABC間的平均距離=e+m=34.7(3)(2)-(3)+(1)d=4,e=6DEABCedm第六十九頁,共一百一十一頁,編輯于2023年,星期五分成三組:C,DE,以及AB=>C最接近DE!第七十頁,共一百一十一頁,編輯于2023年,星期五c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)=>

c=9=>g=5第七十一頁,共一百一十一頁,編輯于2023年,星期五由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12第七十二頁,共一百一十一頁,編輯于2023年,星期五(2)N-J/鄰接法與FM方法非常類似保證總的支長最短總支長:a+b+c+d+e=314/4=78.5第七十三頁,共一百一十一頁,編輯于2023年,星期五找到距離最近的兩個點1.任意兩個節點選為相鄰序列的總支長計算公式:2.計算SAB,SBC,SCD,SDE…等數值3.該例中,SAB最小第七十四頁,共一百一十一頁,編輯于2023年,星期五把A、B看成一個新的復合序列,構建一個新的距離表,重復以上過程計算A,B的分支長度第七十五頁,共一百一十一頁,編輯于2023年,星期五d=e=10/2=5UPGMA法第七十六頁,共一百一十一頁,編輯于2023年,星期五c=19/2=9.5g=c-d=9.5-5=4.5第七十七頁,共一百一十一頁,編輯于2023年,星期五a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---第七十八頁,共一百一十一頁,編輯于2023年,星期五(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75第七十九頁,共一百一十一頁,編輯于2023年,星期五最大似然法(ML)最大似然法(maximumlikelihood,ML):最早應用于對基因頻率數據的分析上

選取一個特定的替代模型來分析給定的一組序列數據,使得獲得的每一個拓撲結構的似然率都為最大值,然后再挑出其中似然率最大的拓撲結構作為最優樹;

在最大似然法的分析中,所考慮的參數并不是拓撲結構而是每個拓撲結構的枝長,并對似然率求最大值來估計枝長;

缺點:費時,每個步驟都要考慮內部節點的所有可能性

改進:啟發式算法,分枝交換搜索等第八十頁,共一百一十一頁,編輯于2023年,星期五構建進化樹的一般原則第八十一頁,共一百一十一頁,編輯于2023年,星期五1.可靠的待分析數據2.準確的多序列比對3.選擇合適的建樹方法:A.序列相似程度高,MP首先B.序列相似程度較低,ML首先C.序列相似程度太低,無意義4.一般采用兩種及以上方法構建進化樹,無顯著區別可接受構建進化樹的一般原則(2)第八十二頁,共一百一十一頁,編輯于2023年,星期五

選擇一個或多個已知與分析序列關系較遠的序列作為外類群;

外類群可以輔助定位樹根;

外類群序列必須與剩余序列關系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。外類群(Outgroup)bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外類群第八十三頁,共一百一十一頁,編輯于2023年,星期五進化樹的可靠性分析單純由預先獲得的多序列比對結果數據所推導出的進化樹有時并不一定可靠。改進辦法:引進一些統計分析來尋找更優的進化樹,檢驗結果的可靠性。最常見的就是bootstrap評估。第八十四頁,共一百一十一頁,編輯于2023年,星期五從排列的多序列中隨機有放回的抽取某一列,構成相同長度的新的排列序列;

重復上面的過程,得到多組新的序列;

對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。一般Bootstrap的值>70,則認為構建的進化樹較為可靠。自展法-進化樹的可靠性分析BootstrapMethod第八十五頁,共一百一十一頁,編輯于2023年,星期五原始排列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAAC

Bootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACCBootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAAC第八十六頁,共一百一十一頁,編輯于2023年,星期五第五節系統發育分析軟件介紹軟件說明PHYLIP免費的、集成的進化分析工具/phylip.htmlMEGA圖形化、集成的進化分析工具,不包括ML/

PAUP商業軟件,集成的進化分析工具

/PHYML最快的ML建樹工具http://atgc.lirmm.fr/phyml/MrBayes基于貝葉斯方法的建樹工具/MAC5基于貝葉斯方法的建樹工具/software/mac5/第八十七頁,共一百一十一頁,編輯于2023年,星期五相關軟件軟件說明ClustalX圖形化的多序列比對工具;構建N-J系統樹http://bips.u-strasbg.fr/fr/Documentation/ClustalX/GeneDoc多序列比對結果的美化工具(可以導入fasta格式的文件,作圖可用于發表)/biomed/genedoc/

BioEdit序列分析的綜合工具

/BioEdit/bioedit.html

TreeView進化樹顯示工具http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

第八十八頁,共一百一十一頁,編輯于2023年,星期五Phylip軟件包介紹由華盛頓大學遺傳學系開發,免費的系統發育分析軟件包。目前最廣泛使用的系統發生分析程序,主要包括以下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進化樹繪制組。訪問及免費下載地址:/phylip.html第八十九頁,共一百一十一頁,編輯于2023年,星期五Phylip軟件包介紹

Phylip包含了35個獨立的程序,這些獨立的程序都實現特定的功能,這些程序基本上包括了系統發生分析的所有方面。多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。

Phylip軟件包的文檔是非常詳細的,對于每個獨立的程序,都有一個獨立的文檔,詳細的介紹了該程序的使用及其說明。第九十頁,共一百一十一頁,編輯于2023年,星期五Phylip軟件包的應用1,根據你的分析數據,選擇適當的程序如,你分析的是DNA數據,就在核酸序列分析類中選擇程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp

)2.選擇適當的分析方法 如你分析的是DNA數據,可以選擇簡約法(DNAPARS),似然法(DNAML,DNAMLK),距離法等(DNADIST)。3.進行分析選擇好程序后,執行,讀入分析數據,選擇適當的參數,進行分析,結果自動保存為outfile,outtree。第九十一頁,共一百一十一頁,編輯于2023年,星期五

outfile是一個記錄文件,記錄了分析的過程和結果,可以直接用文本編輯器(如寫字板)打開。

outtree是分析結果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeview等。Phylip軟件包的應用第九十二頁,共一百一十一頁,編輯于2023年,星期五現有8段protein序列:>P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLE>P3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLE>P4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P6MPRFEANLSMMFTEVPFAERFADARKAGFDA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論