




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1基因預測開放讀碼框GENSCANGenomeScanGeneMarkGLIMMER基因結構分析內含子/外顯子剪切位點NetGene2Spidey選擇性剪切ProSplicerSpidey轉錄調控序列分析啟動子/轉錄起始位點DBTSSPromoterScanCpG島CpGPlot轉錄終止信號Hcpolya序列組分分析GC含量cgview密碼子偏好性使用CodonW限制性核酸內切酶位點NEBcutter核酸序列分析基因預測:早期指預測DNA序列中編碼蛋白質的部分,即外顯子部分;現在指整個基因結構的預測,綜合各種外顯子預測的算法及對基因結構信號的認識,預測出可能的完整基因。(啟動子預測、重復序列預測、CpG島的預測等等)
通過生物信息學手段發現基因的一般過程①獲取DNA目標序列②查找ORF并將目標序列翻譯成蛋白質序列③在數據庫中進行序列搜索④多序列比對,查找基因家族⑤查找目標序列中的特定模序⑥預測目標序列的二級、三級結構⑦獲取相關蛋白質的功能信息3開放讀碼框的識別開放閱讀框開放閱讀框(英語:Openreadingframe;縮寫:ORF;其他譯名:開放閱讀框架、開放式閱讀框架,開放讀架等)是生物個體的基因組中,可能是蛋白質編碼序列的部分。基因中的ORF包含并位于開始編碼與終止編碼之間。由于一段DNA或RNA序列有多種不同讀取方式,因此可能同時存在許多不同的開放閱讀框架。開放閱讀框包含一段可以編碼蛋白的堿基序列,不能被終止子打斷。單鏈DNA序列可能有3種閱讀框,但通常只有一種具有編碼的作用,稱為開放閱讀框(openreadingframeorORF)。封閉閱讀框(blockreadingframe)
當一個新基因被識別,其DNA序列被解讀,DNA序列可以按六種框架閱讀和翻譯。例如一段5'-UCUAAAGGUCCA-3'序列。此序列共有3種讀取法:
UCUAAAGGUCCA
CUAAAGGUC
UAAAGGUCA
ORF識別包括檢測這六個閱讀框架并決定哪一個包含以啟動子和終止子為界限的DNA序列而其內部不包含啟動子或密碼子,符合這些條件的序列有可能對應一個真正的單一的基因產物。ORF的識別是證明一個新的DNA序列為特定的蛋白質編碼基因的部分或全部的先決條件。
基因結構分析(1)原核基因結構?原核生物基因組小,基因密度高,很少存在重復序列, 一個基因是由編碼一個蛋白質或RNA的開封閱讀框構成, 中間沒有間斷。?細菌的起始密碼子為:ATG,GTG,TTG?核糖體結合位點(Shine-Delgaronsequence)?終止密碼子較容易確定?轉錄終止子?密碼子偏好性翻譯起始位點翻譯終止位點編碼區轉錄終止子TTTTT
7轉錄起始位點
AGGAGGT
核糖體結合位點(2)真核基因結構
?基因組較大,基因密度低,富含重復序列和轉座元件;最重要 的是基因被插入的非編碼序列(內含子)切分成小段(外顯 子)。?初生的轉錄產物需要經過三個步驟轉變成成熟的可翻譯為蛋白的mRNA。?真核基因預測的主要問題是識別外顯子、內含子和間接位點。?真核基因中存在一些保守序列特征有助于進行計算預測,如:GT-AG規則,密碼子偏好性,六聚體頻率,kozak序列,CpG島,poly-A8名稱TATA框(TATAbox)CAAT框(CAATbox)GC框(GCbox)所處位置轉錄起始點上游約19~27bp處位于轉錄起始點上游70~80bp有兩個拷貝,分別位于CAAT框的兩側組成TATA(A/T)A(A/T)GG(T/C)CAATCTGGCGGG功能與轉錄因子TFⅡ結合,能夠準確識別轉錄起始點與轉錄因子CTF結合,促進轉錄與轉錄因子SP1結合,起增強轉錄效率的作用9原核和真核生物基因轉錄起始位點上游區結構原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC區CAAT區mRNA+1-40-25-110增強子上游啟動子元件,UPE核心啟動子元件轉錄起始位點10轉錄終止信號加polyA信號:AAUAAA轉錄終止信號:GCrich二重對稱區、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA5’3’AAUAAACAAAAAAAAAAAAA成熟mRNA5’3’AAUAAACAGUmRNA前體5’3’真核基因組中的重復序列存在方式單一序列重復序列中度重復序列高度重復序列長度大于300bp2~200bp拷貝數出現一次或很少幾次拷貝數102~106之間拷貝數106~108之間功能編碼蛋白質的結構基因(3萬~4萬個)一般不編碼蛋白質,但在基因調控中起重要作用一般不能轉錄,但參與染色體結構的維持、形成結構基因間隔等,如構成著絲粒、端粒等的衛星DNARepBase是真核生物DNA中重復序列數據庫Kozak序列(真核生物)
該序列是在起始密碼子之前與核糖體作用的位點,真核生物mRNA起始密碼AUG上游的第三個核苷酸常常是嘌呤,且多為A(-3A);其次緊跟在AUG后面的核苷酸,常常也是嘌呤,但多數情況下是G(+4G)。高等真核生物的Kozak同源序列為:GCCACC(ATG),弱Kozak同源序列是:CATTGG(ATG);酵母的Kozak同源序列是:AAAAAA(ATG),弱Kozak序列是:CGGTGT(ATG),而沒有起始功能的AUG附近的核苷酸序列則無此保守性。
不同生物對密碼子的使用有不同的偏好,在編碼區和非編碼區,特定氨基酸密碼子的出現頻率是不同的,因而蛋白質編碼區密碼存在一定的規則性。
CodonW
/密碼子使用頻度142、
內含子/外顯子分析對基因組序列的讀碼框區域進行預測內含子5’端供體位點(donorsplicesite):GT內含子3’端受體位點(acceptorsplicesite):AG預測工具:GENSCAN,GENEMARKNetGene2,SpliceView
CpG島(CpGisland)是短的、分散的、非甲基化核酸序列,它常出現在持家基因和受調節表達的基因5’端,CpG島定義為長度超過200bp,p(CG)>0.6×p(C)×p(G)值,且GC含量大于50%的序列區域。統計表明在人和鼠的基因中80%含有CpG島。覆蓋5’啟動子區域,并常向3端延伸約1000bp,進入基因翻譯區。通過CpG島分析可幫助確定基因5’末端位置。分析序列中的CpG島可用WebGene或CpGplot。(三)、CpG島存在的主要問題?假陽性(FalsePositive,FP):多預測了假的編碼區,即在非編碼區預測出編碼區。?假陰性FalseNegative,FN):漏掉了真實的編碼區,即將編碼區預測為非編碼區。(Over?
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45782-2025生物技術生命科學中數據格式和描述的要求
- GB/T 21964-2025農業機械修理安全規范
- 2020-2025年中國浮動裝置行業競爭格局分析及投資規劃研究報告
- 2025年中國內蒙古園林綠化行業發展監測及投資戰略研究報告
- 華洪新材2025年財務分析詳細報告
- 2025年中國兒童餅干行業發展前景預測及投資方向研究報告
- 中國小程序市場競爭策略及行業投資潛力預測報告
- 2025年 物業管理師三級考試練習試題附答案
- 中國雙機容錯軟件行業競爭格局及市場發展潛力預測報告
- 2025年 隴南徽縣消防救援大隊招聘政府專職消防員考試試題附答案
- 降低制粉單耗(集控五值)-2
- 電力分包項目合同范本
- 2024年急危重癥患者鼻空腸營養管管理專家共識
- 2024年法律職業資格考試(試卷一)客觀題試卷與參考答案
- 國家開放大學《Web開發基礎》形考任務實驗1-5參考答案
- 山東師范大學學校管理學期末復習題
- 《進一步規范管理燃煤自備電廠工作方案》發改體改〔2021〕1624號
- LS-DYNA:LS-DYNA材料模型詳解.Tex.header
- 大學生體質健康標準與鍛煉方法(吉林聯盟)智慧樹知到期末考試答案章節答案2024年東北師范大學
- 新疆警察學院面試問題及答案
- 小學三到六年級全冊單詞默寫(素材)-2023-2024學年譯林版(三起)小學英語
評論
0/150
提交評論