核苷酸序列分析以及應用_第1頁
核苷酸序列分析以及應用_第2頁
核苷酸序列分析以及應用_第3頁
核苷酸序列分析以及應用_第4頁
核苷酸序列分析以及應用_第5頁
已閱讀5頁,還剩61頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、核苷酸序列分析以及應用重復序列分析開放讀碼框(open reading frame, ORF)的識別基因結構分析內含子/外顯子剪切位點識別選擇性剪切分析CpG 島的識別核心啟動子/轉錄因子結合位點/轉錄啟始位點的識別轉錄終止信號的預測GC含量/密碼子偏好性分析核苷酸序列分析重復序列分析原核基因組中除rRNA、tRNA基因有多個拷貝外,重復序列(repetitive sequences)不多。哺乳動物基因組中則存在大量重復序列,分為3類:高度重復序列。一般較短,長10300bp,重復106次左右,占基因組10%60%,在人類基因組中約占20%,功能還不明確。重復序列分析中度重復序列。長10300

2、bp,重復10105次,占基因組1040%。哺乳類中含量最多的一種稱為Alu的序列,長約300bp,重復3105次,在人類基因組中約占7%,功能不是很清楚。單拷貝序列。這類序列基本上不重復,占哺乳類基因組的50%80%,在人類基因組中約占65%。由于大量重復序列影響序列分析,因此在對真核基因分析前,最好把重復序列屏蔽掉。核苷酸序列分析ORFArabidopsis thaliana chromosome 2, part sequence (NC_003071.1)Output開放讀碼框的識別開放讀碼框(open reading frame, ORF) 是一段起始密碼子(ATG)和終止密碼子(TA

3、A, TAG, TGA)之間的堿基序列ORF 是潛在的蛋白質編碼區原核生物中多數基因的編碼序列在100氨基酸以上;真核生物的編碼區由內含子和外顯子組成,其外顯子的平均長度約為50個氨基酸。預測ORF的方法有兩類:基于統計分析和模式識別(如GENSCAN, GeneMark, GRAIL II 等),基于同源比對。核苷酸序列分析ORF開放讀碼框的識別Kozak規則: ORF中起始密碼子ATG前后的堿基具有特定的偏好性。若將第一個ATG中的堿基分別標為1、2、3位,則Kozak規則可描述如下:第4位的偏好堿基為G;ATG的5端的15bp范圍內的側翼序列內不含堿基T;第3、6、9位G為偏好堿基;除第

4、3、6、9位,在整個側翼序列區中,C為偏好堿基。核苷酸序列分析ORF核苷酸序列分析ORF開放讀碼框的識別預測ORF的方法都是針對特定物種而設計的,如GENSCAN最初是針對人類的,后擴展對脊椎動物、果蠅、擬南芥、玉米基因的預測。GlimerM適于惡性瘧原蟲、擬南芥、曲霉菌和水稻對mRNA, cDNA, EST, 宜用GetOrf, ORF Finder, Plotorf, BestORF 等核苷酸序列分析ORF應用ORF Finder預測水稻瘤矮病毒(RGDV)S8片斷的ORFORF Finder: :/水稻瘤矮病毒(rice gall dwarf virus, RGDV)引起的水稻瘤矮病是中

5、國及東南亞國家水稻上的一種重要病毒病害.為構建融合蛋白的表達載體,需要對RGDV S8片斷的基因序列(GenBank登陸號:AY216767)進行ORF分析并確定其位置,為設計表達引物提供信息.提交序列:以登陸號或直接粘貼FASTA格式的序列.參數設置:可設置待分析序列片斷的起始和結束位置;ORF Finder提供了22種遺傳密碼表可供選擇。這里選擇默認參數.核苷酸序列分析ORFThe Genetic Codes點擊點擊結果驗證采用數據庫搜索方法對選定的ORF進行驗證BLASTB比對搜索到多個顯著相似的序列, 因此所預測的ORF可信度比較高點擊GetOrf ggccagatgg aacatat

6、tgc tttcgggagc acaaggatcg ggtctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg輸出結果GENSCAN ggccagatgg aacatattgc tttcgggagc acaaggatcg gg

7、tctactac gtctcggagcggattttgaa gctgagcgag tgcttcggct acaagcagct ggtgtgcgtg ggcacctgcttcggcaagtt ctccaagacc aacaaactga agttccatat cacggcgctc tactacttggcgccctacgc ccagtacaag gtgtgggtga agccctcctt cgagcagcag tttctctacg輸出結果啟動子及轉錄因子結合位點分析啟動子(Promoter)是RNA聚合酶識別、結合并開始轉錄所必需的一段DNA序列。原核生物啟動子序列包括:CAP序列(增強聚合酶的結合

8、和轉錄的起始序列,-70-40)-10序列:在-4到-13bp處,有保守序列TATAAT,稱為Pribnow框,各堿基頻率:T89 A89 T50 A65 A65 T100-35序列:約在-35處有保守序列TTGACA, 其中TTG十分保守,各堿基頻率:T85 T83 G81 A61 C69 A52核苷酸序列分析ORF啟動子及轉錄因子結合位點分析真核生物啟動子是在基因轉錄起始位點(+1)及其5上游大約100200bp或下游100bp的一組具有獨立功能的DNA序列,包括:核心啟動子( core promoter): 轉錄起始位點(+1)一般是A或G及轉錄起始位點上游-25-30的TATA框上游啟

9、動子元件(upstream promoter element, UPE): 包括通常-70bp附近的CAAT框(GGCCAATCT)和GC框(GGGCGG)等核苷酸序列分析ORFPromoterScan粘貼AY684193輸出結果內含子/外顯子剪切位點識別對基因組序列的讀碼框區域進行預測內含子5端供體位點(donor splice site): GT內含子3端受體位點(acceptor splice site): AG內含子區域核苷酸組分是識別編碼區的重要依據核苷酸序列分析Gene Structure不同的序列通常采用不同的分析方法NetGene2和Splice View用于分析基因組核苷酸序

10、列編碼區的剪切位點和內含子mRNA/cDNA序列可用Spidey,SIM4,BLAT和BLAST等分析工具內含子/外顯子剪切位點識別如何分析mRNA/cDNA的外顯子組成?RNASPL與相應的基因組序列比對,分析比對片段的分布位置預測工具:Spidey,SIM4,BLAT,BLAST,FASTA 核苷酸序列分析Gene Structure核苷酸序列分析Gene StructureNetGene2用于人類、線蟲和擬南芥的基因序列分析報告受體位點和供體位點信息,對DNA正負兩條鏈分析圖形顯示可能的編碼區、受體位點和供體位點信息ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTT

11、TTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAAGCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACA

12、GCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGCTACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATC

13、TTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCAGCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAATSpidey :

14、/可對cDNA或EST序列分析NCBI開發,基于BLAST和Dot View局部比對算法優勢在于能同時將多條mRNA/cDNA或EST序列與基因組序列進行比對輸入基因組序列Z83819輸入序列:AF166326AF166327選擇性剪切(Alternative splicing)分析核苷酸序列分析Gene Structure選擇性剪切(Alternative splicing)分析選擇性剪接是調控基因表達的重要機制了解不同物種、細胞、發育階段、環境壓力下基因的調控表達機制分析方法:查詢選擇性剪切相關的網站多序列比對查詢選擇性剪切相關的網站核苷酸序列分析Gene Structure 從已知基因的

15、功能推測剪切機制分析EST序列的選擇性剪切Seq1ATGGGAAACTGGGTGGTTAACCACTGGTTTTCAGTTTTGTTTCTGGTTGTTTGGTTAGGGCTGAATGTTTTCCTGTTTGTGGATGCCTTCCTGAAATATGAGAAGGCCGACAAATACTACTACACAAGAAAAATCCTTGGGTCAACATTGGCCTGTGCCCGAGCGTCTGCTCTCTGCTTGAATTTTAACAGCACGCTGATCCTGCTTCCTGTGTGTCGCAATCTGCTGTCCTTCCTGAGGGGCACCTGCTCATTTTGCAGCCGCACACTGAGAAA

16、GCAATTGGATCACAACCTCACCTTCCACAAGCTGGTGGCCTATATGATCTGCCTACATACAGCTATTCACATCATTGCACACCTGTTTAACTTTGACTGCTATAGCAGAAGCCGACAGGCCACAGATGGCTCCCTTGCCTCCATTCTCTCCAGCCTATCTCATGATGAGAAAAAGGGGGGTTCTTGGCTAAATCCCATCCAGTCCCGAAACACGACAGTGGAGTATGTGACATTCACCAGCATTGCTGGTCTCACTGGAGTGATCATGACAATAGCCTTGATTCTCATGGTAACTTCAGC

17、TACTGAGTTCATCCGGAGGAGTTATTTTGAAGTCTTCTGGTATACTCACCACCTTTTTATCTTCTATATCCTTGGCTTAGGGATTCACGGCATTGGTGGAATTGTCCGGGGTCAAACAGAGGAGAGCATGAATGAGAGTCATCCTCGCAAGTGTGCAGAGTCTTTTGAGATGTGGGATGATCGTGACTCCCACTGTAGGCGCCCTAAGTTTGAAGGGCATCCCCCTGAGTCTTGGAAGTGGATCCTTGCACCGGTCATTCTTTATATCTGTGAAAGGATCCTCCGGTTTTACCGCTCCCA

18、GCAGAAGGTTGTGATTACCAAGGTTGTTATGCACCCATCCAAAGTTTTGGAAT分析EST序列的選擇性剪切BLAST搜索Seq1,發現它與多條NOX1基因高度相似,因此它可能是NOX1基因的選擇性剪切產物分析EST序列的選擇性剪切在ProSplicer網站搜索NOX1基因,結果表明NOX1基因有不同的選擇性產物輸入NOX1Output分析EST序列的選擇性剪切收集不同剪切體的mRNA/cDNA/EST序列,如AF166316, AF166327, AF166328, NM_013955, 與Seq1比對,可判斷Seq1的剪切機制。Seq1與AF166327最為相似,與

19、AF166327在基因的5相匹配,而缺失了第1013號外顯子區域。Seq1與AF166317比對結果基于序列比對分析選擇性剪切在序列上高度相似的mRNA/cDNA/EST序列相匹配的基因組序列序列比對對分布位置進行分析cDNA/mRNA/EST 序列比對收集序列核苷酸序列分析Gene Structure 評判的標準:來自Unigene的高質量數據Exon至少有3條ESTs覆蓋Exon周圍有GT-AG信號Blast比對Score值100相似度95%S.Gupta et al., Genome wide identification and classification of alternativ

20、e splicing based on EST data, Bioinformatics 2004, 20(16): 2579-2585基因周圍調控序列分析 CpG島位于真核生物基因轉錄起始位點上游,GC含50% ,長度幾百到幾千“p”表示“C”和“G”以磷酸二酯鍵連接一般CpG島出現在脊椎動物看家基因(house keeping gene)或頻繁表達基因中活性基因的CpG島具有抵抗序列甲基化的作用80%的人類基因的轉錄起始位點存在CpG島,因而搜索CpG島可為發現基因提供重要線索核苷酸序列分析Gene Structure :/CpgplotCpgreportIsochoreResults F

21、orCpgplotCpgreportIsochoreExample基因周圍調控序列分析轉錄終止信號的預測真核生物編碼基因中,轉錄終止信號是在mRNA序列的3端終止密碼子下游置上加尾的信號,主要標志為出現AATAAA序列,可以重復出現,在其后的10-15 bp處開始合成PolyA.在基因預測軟件中,轉錄終止信號也被化定基因的范圍,以便對ORF區域進行更好的識別和分析核苷酸序列分析Gene Structure Polyadq粘貼中的序列密碼子使用偏性分析遺傳密碼子表Second PositionFirst Position (5 end)Third Position (3 end)密碼子使用偏性分

22、析生物體內普遍存在同義密碼子非均衡使用的現象, 例如: 某一物種或某一基因通常傾向于使用一種或幾種特定的同義密碼子, 這些密碼子被稱為最優密碼子(optimal codon), 此現象被稱為密碼子偏性(codon bias)。.不同物種的基因、不同功能的基因在密碼子使用上存在著明顯的偏性核苷酸序列分析Gene Structure 密碼子使用偏性分析意義基因異源表達與某些物種的蛋白表達水平相關揭示有關物種間或某一物種的基因家族間的基因進化規律基因的翻譯調控其他應用 密碼子偏性的分析也常對許多實驗操作起指導和輔助作用, 如: 鑒定編碼區, 制備基因克隆的寡核苷酸探針, 基因芯片設計等核苷酸序列分析

23、Gene Structure 密碼子使用偏性分析密碼子使用指標(Codon usage indices) (1) 密碼子適應性指標CAI (codon adaption index) (2) 最優密碼子使用頻率FOP (frequency of optimal codons) (3)密碼子偏性指標CBI (codon bias index) (4) 有效密碼子數ENC (effective number of codons) (5)GC含量 (GC content of gene) (6)密碼子第三位GC含量 (GC of silent 3rd codon position)核苷酸序列分析Ge

24、ne Structure 密碼子使用偏性分析密碼子使用指標(Codon usage indices)(7) 密碼子第三位A、T、C、G含量( silent base composition) (8) 同義密碼子數目 (Number of synonymous codons) (9) 序列氨基酸總數 (Total number of amino acids) (10)蛋白質疏水性 (Hydrophobicity of protein) (11) 蛋白質芳香性 (Aromaticity of protein)核苷酸序列分析Gene Structure 密碼子適應性指標CAI (codon adap

25、tion index)CAI is a measurement of the relative adaptedness of the codon usage of a gene towards the codon usage of highly expressed genes. The relative adaptedness () of each codon is the ratio of the usage of each codon, to that of the most abundant codon within the same synonymous family. L is th

26、e number of synonymouscodons in the gene.常用于基因表達水平的測量,此值為01 ,越接近1 表示基因的表達水平越高。最優密碼子使用頻率FOP (frequency of optimal codons)Fop is the fraction of synonymous codons which are optimal codons.If rare synonymous codons have been identified, there is a choice of calculating the original Fop index or a modif

27、ied Fop index密碼子偏性指標CBI (codon bias index)CBI is a measure of directional codon bias, and is a measure of the extent to which a gene uses a subset of optimal codonsWhere Nopt = number of optimal codons; Ntot = number of synonymous codons; Nran = expected number of optimal codons if codons were assig

28、ned randomly.有效密碼子數ENC (effective number of codons)取值范圍在2061之間,即如果每種氨基酸只使用一種密碼子則有效密碼子數為20,如果各種同義密碼子的使用機會完全均等,則有效密碼子數為61,越靠近20偏性越強。 ENC值越小,基因的密碼子偏愛程度越大。 單子葉植物玉米、高粱、大麥、小麥、水稻的ENC值均小于40,而雙子葉植物擬南芥、豌豆的ENC分別為和,表明5種單子葉植物的waxy基因具有較強的密碼子偏好,而雙子葉植物的偏好性則相對較低。 7個物種waxy基因密碼子的ENC值和GC3含量 相對同義密碼子使用頻率RSCU (relative synonymous codonusage)xij表示編碼第i個氨基酸的第j個密碼子的出現次數, ni表示編碼第i個氨基酸的同義密碼子的數量。 密碼子使用偏性分析工具密碼子使用偏性分析工具CodonW使用數據詳見Check th

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論