




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、回顧數據庫搜索互聯網上存放大量免費的生物學數據庫,并有基本的數據分析工具。NCBI包含生物大分子序列的各種最基本數據庫。Entrez是NCBI的檢索系統,提供關鍵詞檢索功能,可檢索該網站所有的子數據庫。參考序列數據庫(RefSeq)包括核酸和蛋白質序列,是高質量的非冗余的數據庫。GenBank數據格式(GBFF)包含序列大量的相關信息。1 /90回顧數據庫搜索互聯網上存放大量免費的生物學數據庫,并有基回顧雙序列比對雙序列比對有三種情況:匹配(得分為正),不匹配(蛋白質有保守性問題),空位(罰分)。空位罰分一般采用仿射罰分。雙序列比對可以幫助我們發現兩條序列一致性位點的百分比,或者保守性位點(蛋
2、白質)的百分比。動態規劃法比對兩條序列可以獲得數學上的最佳值(受打分矩陣影響)。可以進行全局(長度接近)和局部的比對。相似性是查找確認同源序列的最基本步驟。同源序列一般具有統計顯著的相似性。2 /90回顧雙序列比對雙序列比對有三種情況:匹配(得分為正),不課堂練習應用動態規劃法算法,打分系統是否對雙序列比對結果有影響?為什么?雙序列比對的動態規劃算法的時間復雜度?用點陣法確認一條rna序列是否具有發夾狀結構。點陣法為什么要進行去噪處理,用什么方法?3 /90課堂練習應用動態規劃法算法,打分系統是否對雙序列比對結果有影矩陣集合 PAM-N如,PAM60矩陣用于比較相距60個PAM單位的序列。計算
3、方法是PAM1自乘60次。思考題:經過100次PAM后,是否每個氨基酸都發生了變化?為什么?4 /90矩陣集合 PAM-N思考題:經過100次PAM后,BLOSUM 62模塊氨基酸替換矩陣5 /90BLOSUM 62模塊氨基酸替換矩陣5 /90BLOSUM90PAM30低趨異度小鼠和大鼠RBPBLOSUM45PAM240高趨異度小鼠和細菌的lipocalinBLOSUM80PAM120BLOSUM62PAM180相似度越低的序列,在比對的時候,采用PAM矩陣時,后面的數字越大,采用BLOSUM矩陣時,后面的數字越小。6 /90BLOSUM90PAM30低趨異度小鼠和大鼠RBPBLOSU序列相似
4、性搜索BLAST7序列相似性搜索BLAST7主要內容一、BLAST簡介二、BLAST算法三、BLAST一般使用方法四、BLAST搜索實例8 /90主要內容一、BLAST簡介8 /90一、BLAST簡介與意義BLAST (Basic Local Alignment Search Tool)allows rapid sequence comparison of a querysequence against a database.The BLAST algorithm is fast, accurate, and web-accessible.9 /90一、BLAST簡介與意義BLAST (Bas
5、ic Local網站上的簡單說明The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. BLAST can be used to infer functional and evolutionary
6、 relationships between sequences as well as help identify members of gene families. (作業:翻譯)10 /90網站上的簡單說明The Basic Local AlignmBLAST的應用確定直系同源序列或旁系同源序列。如當一個新的細菌基因組被測序后,幾千種蛋白質被確定,其中有多少蛋白質是同源的?從這里面預測出的基因中有多少是在GenBank中找不到顯著性同源物的?確定哪些蛋白質和基因在特定的物種中出現。植物中是否也存在象RBP這樣的脂質運載蛋白?魚類中是否有反轉錄酶基因(如HIV-1 pol基因)?確定一個DN
7、A或者蛋白質序列身份。如通過芯片實驗得到一個感興趣的基因,那么就可以通過將這個DNA序列在一個蛋白質數據庫中進行搜索,來尋找哪些蛋白質與該DNA編碼的蛋白質具有相關性。11 /90BLAST的應用確定直系同源序列或旁系同源序列。如當一個新的確定一個特定基因或者蛋白質有哪些已經發現的變種。例如,很多病毒都具有極強的突變能力。HIV-1 pol有哪些已知的變異體?研究可能存在多種剪接方式的表達序列標簽。尋找對于一個蛋白質的功能和/或結構起關鍵作用的氫鍵氨基酸殘基。發現“新基因”。例如,一個對于全基因組DNA的BLAST搜索可能會發現一個DNA所編碼的蛋白質是以前所沒有報道過的。12 /90確定一個
8、特定基因或者蛋白質有哪些已經發現的變種。例如,很多病數據庫搜索相似序列的算法數據庫搜索相似序列的基礎是序列的相似性比對,就是將查詢序列與數據庫里面的序列逐一的兩兩比對分析。由于現在數據庫信息量很大,這樣簡單重復的分析非常耗時。所以開發了一些近似的算法以提高速度,目前使用最廣泛的序列對數據庫相似性搜索的應用程序是FASTA和BLAST。BLAST算法跟之前講的動態規劃法算法有所不同,處理速度更快。13 /90數據庫搜索相似序列的算法數據庫搜索相似序列的基礎是序列的相似BLAST14 /90BLAST14 /90二、BLAST算法“The central idea of the BLASTalgo
9、rithm is to confine attentionto segment pairs that contain aword pair of length w with a scoreof at least T.”Altschul et al. (1990)15 /90二、BLAST算法“The central idea of 這個算法可以描述為3個步驟第一步: 編譯一組閾值高于T的 word pairs (w=3)。例: 對于人 RBP 查詢序列FSGTWYAMAKKDP得到一列 words (w=3) :FSG SGT GTW TWY WYA YAM AMA 思考題:如果查詢序列有10
10、0個字符,那么應該會得到多少個“字”?16 /90這個算法可以描述為3個步驟第一步: 編譯一組閾值高于T的 wBLOSUM 62模塊氨基酸替換矩陣17 /90BLOSUM 62模塊氨基酸替換矩陣17 /90GTW 6,5,11 22GSW 6,1,11 18ATW 0,5,1116NTW 0,5,1116GTY 6,5,213GNM10DAW10(T=11)Fig. 4.13page 101第一步GTW18 /90GTW 6,5,11 22(T=11)Fig. 4.13第二步掃描數據庫,得到與編譯列表匹配的記錄,稱為序列片段對(segment pair)。它是兩條給定序列中的一對子序列,它們的
11、長度相等,且形成無空位的完全匹配。由于在序列片段對查找過程中不考慮空位字符,即不考慮插入和刪除操作,所以運行速度非常快。KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)19 /90第二步掃描數據庫,得到與編譯列表匹配的記錄,稱為序列片段對(“字”對命中后,向兩端延伸,一直到得分(按照某個打分矩陣)下降到某個閾值,由此就得到一定長度的保持最好得分的序列串,稱高記分片段對(high-scoring pair,HSP)。KENFDKARFSGTWYAMAKKDPEG 50 RBP
12、(query)MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)Hit!extendextend第三步20 /90“字”對命中后,向兩端延伸,一直到得分(按照某個打分矩陣)下搜索量T值21 /90搜索量T值21 /90最初是不考慮空位插入,但在生物的進化過程中堿基的插入或缺失突變是普遍存在的,因此比對結果通常會出現一些無空位但不連續的區域,若將有些高分分值片段對通過一些相似性較低且有空位的片段連接起來,就能組成一些更長的或許更有實際生物學意義的比對。基于上述思路,改進的BLAST算法允許空位出現,在多個HSP中,找一個最好的得分最高的片段對(maxim
13、al segment pair,MSP),以此為基礎運行動態規劃法將這一片段向序列的兩端延伸,最終產生一個記分較高的最佳比對結果,且可能有空位插入。22 /90最初是不考慮空位插入,但在生物的進化過程中堿基的插入或缺失突BLAST算法小結word pairssegment pairhigh-scoring pair,HSPmaximal segment pair,MSP動態規劃法。23 /90BLAST算法小結word pairssegment p隨機事件與統計顯著意義的事件HSP是否有生物學意義呢?序列相似性不一定就是有生物學意義的,隨機也會產生一定的相似性序列。一段序列的出現是不是隨機事件
14、?簡單的一個模型:假設一個數據庫有100條數據,每個數據長度是4,隨機給一條長度為4的序列(GGAC)在數據庫中能找到的概率有多大呢?(大約32,這個值叫P【probability】值)。【每個字符(ATGC)出現的概率同等:1/4】。24 /90隨機事件與統計顯著意義的事件HSP是否有生物學意義呢?序列相BLAST中一般用一個E值(Expectation value)來表示比對的顯著性。E值【 P值】表示如果數據庫是隨機序列,那么得到同樣(得分)或者更好比對結果的序列的頻率【概率】。這個值越小越好,說明越有生物學意義。25 /90BLAST中一般用一個E值(Expectation valuE
15、值與p值的關系26 /90E值與p值的關系26 /90E值的問題假設我們現在得到了一個比對結果,那么在這個結果的基礎上,搜索的數據庫越大,比對的E值應該是越小還是越大?(作業)E值與哪些參數有關?27 /90E值的問題假設我們現在得到了一個比對結果,那么在這個結果的基三、BLAST一般使用方法(1) 得到并輸入查詢序列(2) 選擇BLAST程序(3) 選擇搜索的數據庫(4) 選項選擇Then click “BLAST”28 /90三、BLAST一般使用方法(1) 得到并輸入查詢序列28 /進入BLAST界面/Blast.cgi 29 /90進入BLAST界面http:/blast.ncbi.n
16、lmhelp30 /90help30 /90選擇BLAST程序程序 輸入 數據庫 blastnDNA1 DNA blastpprotein1 protein blastxDNA6 protein tblastnprotein6 DNA tblastxDNA36 DNA31 /90選擇BLAST程序程序 輸入 文獻.hk/ 32 /90文獻.hk三、BLAST一般使用方法(1) 得到并輸入查詢序列(2) 選擇BLAST程序(3) 選擇搜索的數據庫(4) 選項選擇Then click “BLAST”33 /90三、BLAST一般使用方法33 /90輸入序列可以輸入序列的ACCN號,gi號或者FAS
17、TA格式的序列34 /90輸入序列可以輸入序列的ACCN號,gi號或者FASTA格式的輸入說明點紅圈的“more”可以更多的說明35 /90輸入說明點紅圈的“more”可以更多的說明35 /90輸入格式說明1)FASTA格式/BLAST/blastcgihelp.shtml“”開始的單行加分行的序列字符串,中間不允許空行。gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE K
18、MKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS36 /90輸入格式說明1)FASTA格式http:/www.ncbi37 /9037 /902)Bare SequenceQIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLK
19、ISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP 沒有開始的帶“”的單行,只有序列數據,中間不允許空行。38 /902)Bare SequenceQIKDLLVSSSTDLDT2)Bare Sequence也可以是GBFF格式中的序列數據,即可以帶數字和空格,但序列中間也不允許空行。 1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri e
20、ktinfeklt ewtnpntmek121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp39 /902)Bare Sequence也可以是GBFF格式中的序列數3)Identifiers 包括檢索號,帶版本號的檢索號以及gi號都是允許的,但是格式有要求,下面是幾種錯誤的格式。ACCESSION P01013 AAA68881. 1 gi| 129295 ACCESSION不能出現版本號
21、之前不能有空格“| ”與數字之間不能有空格40 /903)Identifiers 包括檢索號,帶版本號的檢索號以及限定檢索范圍例如“From”中填“20”,“To”中填“200”,那么就是只比對序列中第20個字符到第200個字符之間的子序列(181個字符),如果序列長度小于200,則取到序列長度。41 /90限定檢索范圍例如“From”中填“20”,“To”中填“20三、BLAST一般使用方法(1) 得到并輸入查詢序列(2) 選擇BLAST程序(3) 選擇搜索的數據庫(4) 選項選擇Then click “BLAST”42 /90三、BLAST一般使用方法42 /90選擇數據庫(核酸比對)非冗
22、余數據庫43 /90選擇數據庫(核酸比對)非冗余數據庫43 /90選擇數據庫(蛋白比對)44 /90選擇數據庫(蛋白比對)44 /90更多的限制45 /90更多的限制45 /90選擇程序46 /90選擇程序46 /90表3.1Blastn可以比對短的近似精確的序列比對47 /90表3.1Blastn可以比對短的近似精確的序列比對47 /9說明48 /90說明48 /90/blast/producttable.shtml#tab3149 /90/blmegablastMEGABLAST is the tool of choice to identify a nucleotide sequence
23、。尋找和被比對序列高度相似的序列, 其他的程序discontiguous-megablast和blastn也能實現這個目標,但是MEGABLAST是專門針對高度相似序列而設計的,是最有效的查找和原序列相同序列的工具。50 /90megablastMEGABLAST is the tooldiscontiguous megablast Discontiguous MEGABLAST is better at finding nucleotide sequences similar, but not identical, to your nucleotide query。Discontiguous
24、 megablast 則更適合發現和被查詢序列相似而不是相同的序列。51 /90discontiguous megablast Discon蛋白搜索的程序52 /90蛋白搜索的程序52 /90三、BLAST一般使用方法(1) 得到并輸入查詢序列(2) 選擇BLAST程序(3) 選擇搜索的數據庫(4) 選項選擇Then click “BLAST”53 /90三、BLAST一般使用方法53 /90選擇算法參數(核酸比對)54 /90選擇算法參數(核酸比對)54 /90選擇算法參數(蛋白比對)55 /90選擇算法參數(蛋白比對)55 /90一般先從默認的開始,根據結果或者特殊的需要調整參數。56 /
25、90一般先從默認的開始,根據結果或者特殊的需要調整參數。56 /輸出結果57 /90輸出結果57 /9058 /9058 /90taxonomy report summarizes species with matches59 /90taxonomy report summarizes spe結果60 /90結果60 /90圖示結果61 /90圖示結果61 /90列表結果62 /90列表結果62 /90比對結果得分有兩個:274是原始分,也就是根據打分矩陣計算得到的分數,248是比特分,是歸一化的分數,這樣可以忽略打分矩陣和的影響。63 /90比對結果得分有兩個:274是原始分,也就是根據打分
26、矩陣計算得目標序列信息64 /90目標序列信息64 /90開始點:一個分子序列RBP(任何物種的DNA或蛋白質)Blastp:有哪些其他蛋白與RBP相關Blastn:人類RBP DNA的3非翻譯區是否與RBP的直系同源物或者旁系同源物的3非翻譯區具有同源性?Blastx:一個脂質運載蛋白的EST與哪些已經蛋白的親緣關系最近?tblastx:人類RBP DNA是否與一個被預測由一個像細菌EST這樣的DNA文庫中的某個基因編碼的蛋白質相匹配?tblastn:一個基因組DNA數據庫中是否有一個RBP的直系同源物?搜索策略與問題實例可改變的搜索參數將搜索限制在一個物種(如人類)或者一個類(如細菌);更
27、改打分矩陣也很得到很遠的同源關系;更改空位罰分來幫助找到同源物或者蛋白質中含有的在其他蛋白質中也出現的短的區域。目標:BLAST搜索可以獲得的結果找到與RBP蛋白明確相關的其他蛋白質或者基因;找到與感興趣的蛋白質有較遠親緣關系的其他蛋白質;發現一個與輸入基因同源的“新基因”;找到在感興趣的蛋白質中含有的并在其他蛋白質中也出現的結構域;通過多序列比對或者種系統進化樹來顯示蛋白質家族的關系。BLAST搜索策略圖65 /90開始點:一個分子序列RBP(任何物種的DNA或蛋白質)Bla四、BLAST搜索實例Lipocalin蛋白家族成員NP_006735作為查詢序列進行BLAST,可獲得部分Lipoc
28、alin家族蛋白。66 /90四、BLAST搜索實例Lipocalin蛋白家族成員NP_067 /9067 /90序列間距離68 /90序列間距離68 /90多序列比對69 /90多序列比對69 /90分類學總結70 /90分類學總結70 /90同源性與相似度兩條相似度很差的序列是同源序列71 /90同源性與相似度兩條相似度很差的序列是同源序列71 /9072 /9072 /90關于兩個蛋白(或DNA)是否同源1)期望值是否顯著?2)兩個蛋白是否具有相似的大小?3)這兩個蛋白質是否具有共同的模體或者信號序列?4)這兩個蛋白質是否一個合理的多序列比對的一部分?5)這兩個蛋白質是否共有一個相似的生
29、物學功能?就像所有的載脂蛋白一樣,這兩個蛋白都是小的、親水性的、含豐富的分泌分子。6)這兩個蛋白質是否具有相似的三維結構?載脂蛋白共享一個顯著的非常保守的結構。7)如果得到一個遠緣關系的序列,用該遠緣關系的序列再做一次BLASTP搜索,一般可獲得更多的該蛋白家族的成員。73 /90關于兩個蛋白(或DNA)是否同源1)期望值是否顯著?73 /用NP_002562.2進行BLASTP可獲得更多lipocalin家族蛋白質。74 /90用NP_002562.2進行BLASTP可獲得更多lipocLipocalin家族retinol-binding proteinodorant-binding pro
30、teinapolipoprotein D75 /90Lipocalin家族retinol-binding odoHIV-1的pol蛋白(NP_057849 ),這是一個多結構域的蛋白,包含有多個不同的蛋白酶、反轉錄酶和整合酶結構域。76 /90HIV-1的pol蛋白(NP_057849 ),這是一個多結分析一個人類EST使用HIV1 pol蛋白對不同數據庫進行查詢Blastp nr(細菌蛋白質)找到很多HIV pol的變體找到幾十個部分匹配找到更多的細菌蛋白的匹配很多顯著性匹配幾百個顯著性匹配Blastp nr(所有蛋白質)tBlastn nr(細菌基因組)Blastp nr(人類蛋白質) t
31、Blastn nr(人類基因組)tBlastx nr(病毒基因組)其他病毒以HIV1 pol蛋白開始的BLAST搜索總圖,通常為研究一個特定基因、蛋白或者物種,可以進行一系列的BLAST搜索。搜索返回的數據庫匹配結果的數量可以從一個到上千個,這完全取決于查詢序列、數據庫和搜索參數本身的特點。77 /90分析一個人類EST使用HIV1 pol蛋白對不同數據庫進行78 /9078 /90在非冗余數據庫中搜索,可看到返回大量的匹配結果,全部具有極低的期望值。79 /90在非冗余數據庫中搜索,可看到返回大量的匹配結果,全部具有極低該蛋白具有豐富的結構域。80 /90該蛋白具有豐富的結構域。80 /90HIV-1pol蛋白與人類蛋白的同源性搜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- HY/T 0465-2024紅樹林修復與利用地埋管網系統技術指南
- java線程變量面試題及答案
- 電子產品測試面試題及答案
- 材料力學基本知識試題及答案
- 軟考網絡工程師歷史試題及答案回顧2025年
- 項目管理與業務戰略的結合試題及答案
- 機電工程項目實施過程管理試題及答案
- 軟考網絡工程師備考技巧與試題及答案
- 挖掘網絡工程師的潛在機會與試題及答案
- 網絡工程師考生經驗分享試題及答案
- GB/T 37613-2019預埋槽道型鋼
- 鑄牢中華民族共同體意識學習PPT
- 初中數學北師大八年級上冊勾股定理-勾股定理的復習PPT
- 三腔二囊管壓迫止血及護理課件
- 電氣控制柜制作工藝設計及規范
- 動力電池和電機電控英語術語匯總
- 普利茲克獎歷屆得主及作品賞析
- 糖尿病中醫護理查房教學內容
- 消防安全培訓記錄表-
- 邏輯判斷推理口訣
- 關于明確公司安全生產相關責任人的通知
評論
0/150
提交評論