解讀基因組序列_第1頁
解讀基因組序列_第2頁
解讀基因組序列_第3頁
解讀基因組序列_第4頁
解讀基因組序列_第5頁
已閱讀5頁,還剩70頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、5 5 解讀基因組序列解讀基因組序列弄清楚:1.基因組順序中所包含的全部遺傳信息是什么(查找基因)2.基因組作為一個整體如何行使其功能其一,根據已知的序列人工判讀或計算機分析尋找與基因有關的序列(如:序列篩查定位基因)其二,實驗研究,看其能否表達基因產物及其對表型的影響,既實驗分析細菌dna的簡單orf掃描高等真核生物dna的orf掃描功能性rna定位基因同源性搜索和比較基因組學自動標注基因組序列所有編碼蛋白質的基因含有可讀框(open reading frames orf):是由可編碼氨基酸的密碼子組成orf起始于起始密碼子(一般是atg)終止于終止密碼子(taa,tag,tga)每個dna

2、序列有6種可讀框如果dna序列cg堿基含量占50%則taa,tag,tga每一個將平均每64bp出現一次如果gc含量大于50%那么含a和t堿基的終止密碼子出現的頻率會相對比較少,但是預期每100200bp還會出現一次尋找orf的方式是將100個密碼子作為一個基因長度的下限 簡單的orf應用于細菌dna序列的掃描可以成功的定位大多數基因,因為細菌基因間距非常小重疊基因較少,而且細菌基因內無內含子,orf連續。基因無內含子orf連續高等真核生物基因之間間隔太大發現家orf的概率增加高等真核生物基因內有內含子導致orf不連續,外顯子小于100個密碼子 因此高等真核生物基因不會以長orf形式出現在基因

3、組序列中,orf無法掃描內含子的基因圖內含子的基因圖密碼子偏倚:特定生物體的基因中并不是所有密碼子使用頻率都相等,真正外顯子有所偏倚。外顯子內含子邊界 :因為有特定的序列特征而區分開上游調控序列:調控序列有明顯特點,可用來定位基因起始區搜尋編碼rna二級結構的特征堿基序列搜尋dna編碼莖環或發夾結構的程序搜索與功能rna基因相關的調控序列搜尋緊湊的較小基因組中蛋白質編碼基因間的空位置同源性搜索:查詢dna數據庫來判斷所檢測序列是否與已知基因的序列相同或者是相似比較基因組學:當相關基因組進行比較時,同源基因由于它們的序列相似性很高就容易被鑒別出來,而在第二個基因組中沒有明確同源物的任何orf都可

4、以很肯定的認為不是基因 計算機方法從序列分析開始,運用能掃描orf、外顯子-內含子邊界及上游調控區并能在數據庫中檢測同源基因orf的程序進行序列分析。這些程序同時也用于尋找重復序列及功能rna基因的特意性特征,而后信息整合分析。 大多數基因定位的試驗方法依賴于檢測由基因轉錄成的rna分子。雜交試驗可以判斷某一片段是否含有轉錄序列cdna測序有助于在dna片段中進行基因作圖精確定位轉錄物末端可以準確定位外顯子內含子邊界 如果用標記的基因組片段與細胞rna進行northern雜交,就可以檢測到那個片段上的基因所轉錄出的rna。缺點:一些單個基因有兩個或更多長度不等的轉錄物mrna表達時期和部位的特

5、異性 將cdna序列與基因組dna序列相比較,就可以描述相應基因的位置找到外顯子內含子的邊界,兩個決定此方法成功的因素:所研究基因dna片段表達水平的高低cdna分子的完整性將rna做起始材料進行特殊類型的pcr逆轉錄pcr(reverse transcriptase pcr,rt-pcr)快速擴增cdna末端其他的轉錄物準確作圖的方法包括異源雙鏈分析(heteroduplex analysis)外顯子捕獲(exon trapping):將一特殊類型載體導入合適的真核細胞系中。根據已知的小基因序列確定出插入的外顯子其實和終止核苷酸的位置,從而準確描述外顯子 5.2 5.2 確定單個基因的功能確

6、定單個基因的功能 一旦一個新基因在基因組序列中獲得定位,就要探索它的功能問題。 大腸桿菌基因組序列中4288個蛋白質編碼基因中,以前已經鑒定出的基因只有1853個(占總數的43%)。對于釀酒酵母,此數值只有30%。 像基因定位一樣,也嘗試著用計算機分析和實驗研究來確定未知基因的功能。5.2.15.2.1基因功能的計算機分析基因功能的計算機分析同源性搜索是通過把被研究的dna序列與數據庫中其他所有的dna序列進行比較來定位基因。同源性搜索的基礎是相關的基因具有相似序列,因此可以通過與不同物種中已測序的同源基因具有相似性來發現新基因。同源性反映出進化關系同源性反映出進化關系 同源基因具有共同的進化

7、祖先,是通過基因之間的序列相似性而發現的。(如圖5.16) 同源基因分兩類: 定向進化同源基因orthologous gene 是那些不同生物體間存在的同源物,它們的共同祖先早于物種之間的分裂。同源基因通常具有相同的或很類似的功能。eg:人類和黑猩猩的肌紅蛋白基因是同源基因。圖圖5.16 5.16 定向進化同源基因和平行進化同源基因定向進化同源基因和平行進化同源基因 平行進化同源基因paralogous gene 存在于相同生物體中,常是可識別的多基因家族的成員,它們共同的祖先可能早于或晚于目前發現新基因的物種分裂。eg:人類肌紅蛋白和球蛋白基因是平行基因:它們起源于5.5億年前祖先基因的復制

8、。 通常一對同源基因不具有相同的核苷酸序列,但具有相似的序列。同源性搜索就是利用這些序列的相似性。 同源性相似性(如圖5.17) 如果一對相關基因的序列有80%的核苷酸是相同生物,就描述它們是“80%同源”是不正確的。一對基因在進化上要么有關要么無關,沒有介于二者之間的情況,因此把同源性描述為百分數是沒意義的。圖圖5.17 5.17 兩個兩個dnadna序列具有序列具有80%80%的序列一致性的序列一致性同源分析可以提供整個基因或基因片段同源分析可以提供整個基因或基因片段 的功能信息的功能信息 可以用dna序列進行同源性搜索,但通常在搜索之前先將假定基因的序列轉換為氨基酸序列。這樣做的一個原因

9、是蛋白質中有20種不同氨基酸,但dna中只要4種核苷酸,因此當比較氨基酸序列時,無關基因序列通常會表現出更大的差別(如圖5.18)。因此如果使用氨基酸序列進行同源性搜索,就不太可能得到假結果。 同源性搜索程序時通過在查找序列和數據庫序列之間進行比較而開始的。對于每個比較來講,都計算出一個得分,操作人員通過這個得分可以估量查詢序列與試驗序列同源的可能性。有兩種方法可以產生這個得分。圖5.18 當在氨基酸水平進行比較,更明顯。 兩條核苷酸序列中,綠色表示相同,紅色表示不同。有76%的一致,如星號所示。 把序列翻譯成氨基酸,一致性就降低到28%。黃色表示相同,棕色表示不同。 aa序列之間進行比較就表

10、明基因不是同源的,核苷酸水平的相似性是偶然的。 最簡單的方法是計算相同氨基酸在兩條序列中都存在的位點數。這個數值被轉換成平均數后就可以給出兩條序列之間的相似程度。 最先進的方法是運用不相同氨基酸之間的化學相關性為比對中的每個位點進行評分,相同或很近的氨基酸(eg:leu和ile)分數就高,不相關的氨基酸( eg:phe和ser)分數就低。這種分析就確定了一對序列之間的相似程度。 可進行同源性搜索分析的軟件最常用的是blast,只需登陸到該網站的一個dna數據庫中,將序列輸入到在線搜索工具就可以進行分析。標準的blast程序能有效鑒別出序列相似性大于30%40%的同源基因。 psi-blast(

11、位點特異的重復blast ),通過將標準blast搜索的同源序列組合成一個序列譜能鑒別出相關性差別更大的序列,運用該序列譜的特征能鑒別出在起始搜索中沒有檢測到的另外的同源序列。同源基因具有非常不同的生物功能,一個例子是眼晶狀體的晶體蛋白,其中一些與代謝酶同源。因此,待查找序列與晶體蛋白之間具有同源性并不代表待查找序列是一種晶體蛋白,而且待查找序列與代謝酶之間具有相似性或明顯的同源性也不能表明待查找序列是一種代謝酶。基因是不相關的,但它們蛋白質具有相似的功能,并同時具有每種蛋白質上一個結構域的編碼序列,而此結構域對其共同的功能起關鍵作用。雖然基因本身沒有共同的祖先,結構域卻有共同的祖先。tudo

12、r結構就是一個典型的例子(如圖5.19)圖圖5.19 tudor5.19 tudor結構域結構域 圖的上部顯示果蠅tudor蛋白結構,它含有10個拷貝的tudor結構域。另一個果蠅蛋白homeless及人類a-激酶錨定蛋白(akap149)中發現了此結構域,它在rna代謝中發揮一定的作用。除了含有tudor結構域外,這些蛋白質并不相似。每種蛋白質的活性都在一個方向或其他方向中與rna有關運用同源性搜索為人類疾病基因確定功能運用同源性搜索為人類疾病基因確定功能人類基因組測序的主要原因之一是能獲得人類疾病相關的基因。同源性搜索在疾病基因的研究中發揮很重要的作用,因為在另一種生物體中發現人類疾病基因

13、的同源基因經常是理解人類基因生物化學功能的關鍵。 5.2.25.2.2用實驗分析闡明基因的功能用實驗分析闡明基因的功能常規的路線:表型基因型新的方法:基因型表型通過基因失活進行功能分析通過基因失活進行功能分析 與表型有關的基因可以通過確定具有突變表型的生物體中哪個基因是失活的而被鑒別出來。如果起點是基因而不是表型,那么相應的策略就是進行基因突變并確定所引起的表型改變,這是大多數用于確定未知基因功能的技術基礎。同源重組可以使單個基因失活同源重組可以使單個基因失活使特定基因失活的最簡單方法是用一段無關dna片段將其破壞(如圖5.20) 。這可以通過在基因的染色體拷貝和另一段與靶基因有一些相同序列的

14、dna之間進行同源重組來達到。現在的目的只要知道兩個dna分子具有相似序列,重組能引起分子片段進行互換就足夠了。如何進行基因失活呢? 釀酒酵母(如圖5.21) 模式生物:人小鼠圖圖5.20 5.20 同源重組引起基因失活同源重組引起基因失活 靶基因的染色體拷貝與克隆載體攜帶的斷裂基因結合起來。結果是,靶基因被失活了。圖圖5.21 5.21 酵母缺失盒的應用酵母缺失盒的應用 缺失盒包括抗生素抗性基因和該基因前面在酵母中表達所需的啟動子序列以及兩側的限制性位點。 “缺失盒”是含有抗生素抗性的基因,不是酵母基因組中的正常部分,但如果轉入酵母染色體中就會起作用,就產生一種轉化的對抗生素遺傳霉素有抗性的

15、酵母細胞。運用缺失盒之前,新的dna片段作為尾端連接到每個末端。這些片段與要被失活的酵母基因的部分序列相同。當改良盒導入酵母細胞后,同源重組就在dna末端和酵母基因的染色體拷貝之間出現,用抗生素抗性基因代替后者。因此,通過將培養物接種到含有遺傳霉素的瓊脂培養基中來篩選攜帶替換基因的細胞。所產生的克隆缺少靶基因的活性,可以通過檢查它們的表型獲得此基因功能的一些提示。 3. .不用同源重組進行基因失活不用同源重組進行基因失活轉座子標記技術(transposon tagging) 通過向基因中插入轉座元件或轉座子使其失活。(更適合用于整體研究基因組的功能)rna干擾或rnai是一種完全不同的基因失活

16、方法,它并不打斷基因本身,而是破壞其mrna 。這是通過將與目的mrna序列匹配的小雙鏈rna分子導入細胞中完成的。 雙鏈rna被打斷成小分子來誘導mrna的降解(如圖5.22)圖圖5.22 rna5.22 rna干擾干擾 雙鏈rna分子被dicer核酸酶切割成2125bp的“小干擾rna”(sirna)。每個sirna的一條鏈與靶mrna堿基配對,后被rde-1核酸酶降解4.基因過表達也可以用來探索功能基因過表達也可以用來探索功能 需要區分兩種情況: 表型變化是由于過表達的特異功能造成的; 特異性比較小的表現變化反映了異常情況。 過表達一個基因,必須運用一種特殊類型的克隆載體,設計此類載體以

17、保證被克隆的基因能合成盡可能多的蛋白質。因此,這種載體是多拷貝的,意思是在宿主細胞內它可以復制到每個細胞40200個拷貝,所以也就出現了待測基因的許多拷貝。載體必須含有高活性啟動子,以便每個拷貝的待測基因能被轉變成大量mrna,再次確保合成盡可能多大的蛋白質(如圖5.23)圖圖5.23 5.23 通過基因過表達進行功能分析通過基因過表達進行功能分析 目的是確定被研究的基因過表達是否影響轉基因小鼠的表型。因此將目的基因的cdna插入到帶有高性啟動子序列的克隆載體中,此啟動子序列指導克隆基因在小鼠肝臟中表達。應用cdna而不用基因的基因組拷貝是因為前者不含有內含子,因而比較短并且更易于在試管中操作

18、。圖圖5.24 5.24 兩步基因替換兩步基因替換 5.2.3 5.2.3未知基因編碼未知基因編碼prpr活性活性 的詳細研究的詳細研究 1.定點誘變可以用來詳細探索基因的功能 使用定向誘變或體外誘變的方法來對基因序列的相關部位進行缺失或改變。 誘變后如何尋找突變基因標記基因(可能改變環境) 為了保證被研究基因活性的變化是由引入基因的特異突變改造的,而不是由于基因組中插入與目的基因緊靠的標記基因后造成環境的間接效果,運用的兩步基因替換法(如圖5.24)2.報道基因和免疫細胞化學可以用來定位基因的報道基因和免疫細胞化學可以用來定位基因的 時空表達時空表達報道基因(reporter gene)就可

19、能確定生物體內的基因表達模式。比較可靠地指示出待測基因表達的時間和空間,就必須使報道使報道基因與待測基因一樣受同樣的信號調節。這可以通過用報道基因的orf替代待測基因的orf來實現(如圖5.25)。大多數控制基因表達的調節信號位于orf上游的dna區域內,現在報道基因就應該表現出與待測基因相同的表達模式了。因此,就可以通過檢測生物體內報道基因的信號來確定表達模式。圖圖5.25 5.25 報道基因報道基因 報道基因的可讀框取代待研究基因的讀框。結果是報告基因受到通常能表明待測基因表達模式的調控序列的調控序列的調節。免疫細胞化學免疫細胞化學 該方法使用一種感興趣蛋白質特異性抗體,這樣就會結合到這種

20、蛋白質而不是其他蛋白質上。抗體進行了標記,這樣它在細胞中的位置以及目的蛋白質在細胞中的位置就可以被觀察到。(如圖5.26)。圖圖5.26 5.26 免疫細胞化學免疫細胞化學 用紅色熒光標記物標記的抗體處理細胞。細胞檢測結果表明熒光信號與線粒體內膜相結合。因此,一種假設認為目的蛋白質參與電子輸送和氧化磷酸化,因為這些是線粒體內膜的主要生化功能。5.3 5.3 個例研究:標注釀酒酵母基個例研究:標注釀酒酵母基因組序列因組序列5.3.15.3.1標注酵母基因組序列標注酵母基因組序列 酵母菌基因組測序在酵母菌基因組測序在19961996完成。最初的分析將完成。最初的分析將100100個密碼子設為可能存

21、個密碼子設為可能存在基因的最小長度,鑒別出在基因的最小長度,鑒別出62746274個個orf,orf,其中大約其中大約30%30%的的orforf是已知真正的基是已知真正的基因。剩下的因。剩下的70%70%運用同源性分析進行了研究,得到了一些結果:運用同源性分析進行了研究,得到了一些結果:1.1.用同源性搜索序列數據數據庫,可以確定出基因組中大約用同源性搜索序列數據數據庫,可以確定出基因組中大約30%30%基因的功能。基因的功能。其中有一半很明確是功能基因的同源基因,另一半沒有明顯的相似性,包括其中有一半很明確是功能基因的同源基因,另一半沒有明顯的相似性,包括許多相似性僅限于個別結構域的基因。

22、許多相似性僅限于個別結構域的基因。2.2.酵母所有基因大約有酵母所有基因大約有10%10%在數據庫中有同源基因,但這些同源基因的功能在數據庫中有同源基因,但這些同源基因的功能未知。因此同源性分析不能幫助確定這些酵母基因的功能。這些酵母基因及未知。因此同源性分析不能幫助確定這些酵母基因的功能。這些酵母基因及其同源基因稱作孤兒家族。其同源基因稱作孤兒家族。3.3.剩下的總數的大約剩下的總數的大約30%30%,在數據庫中沒有同源基因。其中大約總數的,在數據庫中沒有同源基因。其中大約總數的7%7%是是有疑問的有疑問的orforf,其長度很短或有異常的密碼子偏倚,可能不是真正的基因。,其長度很短或有異常

23、的密碼子偏倚,可能不是真正的基因。另外的大約總數的另外的大約總數的23%23%像基因但是唯一的,被稱為單一孤兒。像基因但是唯一的,被稱為單一孤兒。對酵母基因組序列進行初步標注后,有兩個重要的問題:對酵母基因組序列進行初步標注后,有兩個重要的問題:1.1.單一孤兒中有多少為真正基因?單一孤兒中有多少為真正基因?2.2.是否有一些真正基因因為長度小于是否有一些真正基因因為長度小于100100個密碼子,所以不能個密碼子,所以不能通過最初分析鑒定出來?酵母基因組中長度大于或等于通過最初分析鑒定出來?酵母基因組中長度大于或等于100100個個密碼子的密碼子的orforf只有只有62746274個,但長度

24、大于或等于個,但長度大于或等于1515個密碼子的個密碼子的orforf有有100000100000多個,它們中的大多數表現出的密碼子選擇模式與真多個,它們中的大多數表現出的密碼子選擇模式與真正的酵母基因無差別,因此發現新的小基因的潛力是很大的。正的酵母基因無差別,因此發現新的小基因的潛力是很大的。可以用前面介紹的三種方法來篩選酵母基因:可以用前面介紹的三種方法來篩選酵母基因:1.1.比較基因組學比較基因組學 利用相關酵母物種的一組基因組序利用相關酵母物種的一組基因組序列,來評價許多小列,來評價許多小orforf的真實性。的真實性。2.2.通過對通過對cdnacdna進行測序尋找轉錄的證據,包括

25、表達序進行測序尋找轉錄的證據,包括表達序列標簽的文庫,基因表達系列分析,微陣列研究。列標簽的文庫,基因表達系列分析,微陣列研究。3.3.轉座子標記轉座子標記 像用來通過失活基因進行功能分析一像用來通過失活基因進行功能分析一樣,也用來鑒定真正基因的樣,也用來鑒定真正基因的orforf。 在正常細胞中在正常細胞中lacz基因是失活的,用基因是失活的,用x-gal測試時,克隆測試時,克隆顯白色。被激活后,克隆顯藍色。有疑問的顯白色。被激活后,克隆顯藍色。有疑問的orf就可根據克就可根據克隆的顏色鑒定出來。隆的顏色鑒定出來。2 確定酵母基因的功能確定酵母基因的功能釀酒酵母有兩大特征可幫助確定其基因組中

26、未知的基因功能。釀酒酵母有兩大特征可幫助確定其基因組中未知的基因功能。1.1.具有高的同源重組的自然傾向,這就比較容易運用該方法具有高的同源重組的自然傾向,這就比較容易運用該方法來失活單個基因。來失活單個基因。2.2.基因組中存在轉座子基因組中存在轉座子tyty家族,這就將轉座子標記技術用作家族,這就將轉座子標記技術用作基因失活。基因失活。現在面臨的挑戰是發展能篩選大量突變體的方法,以找到能現在面臨的挑戰是發展能篩選大量突變體的方法,以找到能表明失活基因功能的特異表性特征。若同時進行許多平行實表明失活基因功能的特異表性特征。若同時進行許多平行實驗,需要大規模的篩選策略。驗,需要大規模的篩選策略

27、。 這些篩選方法中最成功的方法是條形碼刪除策略。這些篩選方法中最成功的方法是條形碼刪除策略。 這是基本缺失盒系統的改進形式,它們的區別是這是基本缺失盒系統的改進形式,它們的區別是缺失盒同時還含兩個缺失盒同時還含兩個2020個核苷酸的個核苷酸的“條形碼條形碼”序列,序列,每種缺失的序列是不同的,因此可作為特異突變體的每種缺失的序列是不同的,因此可作為特異突變體的標簽。標簽。 每個條形碼兩側的序列是相同的,因此可以通過每個條形碼兩側的序列是相同的,因此可以通過單個單個pcrpcr反應進行擴增。這就表明,一群突變的酵母株反應進行擴增。這就表明,一群突變的酵母株可以混合在一起,每種酵母株含有一種不同的

28、失活基可以混合在一起,每種酵母株含有一種不同的失活基因,就可以在單次實驗中篩選它們的表型。因,就可以在單次實驗中篩選它們的表型。 現在,大約有現在,大約有55%55%的酵母基因已經通過一種或多種的酵母基因已經通過一種或多種實驗方法明確了它們的功能。明確功能的基因有實驗方法明確了它們的功能。明確功能的基因有15001500多個,比基因組序列剛被測通過時的情況好得多。另多個,比基因組序列剛被測通過時的情況好得多。另外約占總數外約占總數33%33%的的20002000個基因是根據同源性分析而確個基因是根據同源性分析而確定功能的。只剩下定功能的。只剩下500500個個orforf被認為是真正基因,但功被認為是真正基因,但功能未定,另外能未定,另外300300個有疑問的個有疑問的orforf可能不是真正的基因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論