如何做序列的blast分析-文檔資料_第1頁
如何做序列的blast分析-文檔資料_第2頁
如何做序列的blast分析-文檔資料_第3頁
如何做序列的blast分析-文檔資料_第4頁
如何做序列的blast分析-文檔資料_第5頁
已閱讀5頁,還剩20頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1如何做序列的如何做序列的BLAST分析分析2內容提要內容提要 Blast簡介簡介 Blast相關問題 Blast的應用的應用 示例3Blast簡介簡介 BLAST 是是NCBI中用來將一個蛋白質或中用來將一個蛋白質或DNA序列和各種數據庫中序列和各種數據庫中的其他序列進行比對的主要工具。的其他序列進行比對的主要工具。 BLAST搜索搜索是研究一個蛋白質是研究一個蛋白質和基因的最基本的方法之一。和基因的最基本的方法之一。 Blast具有非常廣泛的運用具有非常廣泛的運用確定特定的蛋白質或核酸序列有哪些已知的直系同源或旁系同源序列確定哪些蛋白質和基因在特定的物種中出現確定一個DNA或蛋白質序列身份

2、發現新基因 確定一個特定基因或蛋白質有哪些已經發現了的變種研究可能存在多種剪切方式的表達序列標簽尋找對于一個蛋白質的功能和/或結構起關鍵作用的氨基酸殘基 4主要的主要的blast程序程序5主要的主要的blast程序程序程序名程序名查詢序列查詢序列數據庫數據庫搜索方法搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數據庫中的序列Blastp蛋白質蛋白質蛋白質序列搜索逐一蛋白質數據庫中的序列Blastx核酸蛋白質核酸序列6框翻譯成蛋白質序列后和蛋白質數據庫中的序列逐一搜索。Tblastn蛋白質核酸蛋白質序列和核酸數據庫中的核酸序列6框翻譯后的蛋白質序列逐一比對。TBlastx核酸核酸核酸序列6框翻

3、譯成蛋白質序列,再和核酸數據庫中的核酸序列6框翻譯成的蛋白質序列逐一進行比對。6具體步驟具體步驟1. 登陸blast主頁 /Blast.cgi2. 根據已有序列類型和搜索目標,選擇合適的blast程序Blastn,Blastp,Blastx等3. 填寫表單信息選擇要搜索的數據庫,并修改一些可選參數等4. 提交任務5. 查看和分析結果7具體步驟具體步驟 輸入要分析的序列輸入要分析的序列NP_006735三種三種主要的輸入方式主要的輸入方式 剪切然后粘貼DNA或蛋白質序列 使用FASTA格式的序列 簡單地使用索引號碼(如一個RefSeq 或Gen

4、Bank (GI)的序號)8具體步驟具體步驟 選擇要搜索的數據庫選擇要搜索的數據庫 (blastp)去冗余GenBank編碼序列PDB + SwissProt + PIR + PRFNr數據庫數據庫 合并了若干個主要的蛋白質 或DNA數據庫 數據庫有相同的序列,但nr 數據庫只收錄一個 典型和常用的數據庫9具體步驟具體步驟 選擇要搜索的數據庫(選擇要搜索的數據庫(blastn)10具體步驟具體步驟 調整可選參數調整可選參數1. Limit by Entrez Query可以可以用任何一種范圍限定詞用任何一種范圍限定詞來限定來限定NCBI BLAST搜索的范圍搜索的范圍11具體步驟具體步驟 調整

5、可選參數調整可選參數2. Max target sequences:比對之后顯示的最大的比對序列的數目12具體步驟具體步驟 調整可選參數調整可選參數3. Expect threshold:期望值E是得分大于或等于某個分值S的不同的比對的數目在隨機的數據庫搜索中發生的可能性。 默認值是10,表示隨機出現得分等于 或高于比對得分S的期望數為10個。 當將期望選項值調小時,返回的數據 庫搜索結果將變少,匹配被搜索到的 概率也會變小。 增大E值將返回更多的結果。13具體步驟具體步驟 調整可選參數調整可選參數4. Word size(字段長度) 蛋白質搜索,默認值是3 核酸序列搜索,默認值是11 改變字

6、段長度可以影響搜索 精度和速度14具體步驟具體步驟 調整可選參數調整可選參數5. Matrix (打分矩陣) 在一次BLAST搜索中,可以嘗試使用幾種不同的打分矩陣 高PAM值取代矩陣適合于差異較大的序列 低BLOSUM62值的取代矩陣適合于差異較大的序列15具體步驟具體步驟 調整可選參數調整可選參數6. Compositional adjustments,默認選擇,一般來說可改善E值的統計計算和提高靈敏度(減少返回的假陽性結果的數目)16具體步驟具體步驟 調整可選參數調整可選參數7. Filter (選擇性過濾條件), 過濾器將鎖定諸如組成低復雜序列區(如Alu序列),用一系列N(任意堿基)

7、替代這些程序 過濾對絕大多數序列是有利的, 可以幫助避免那些假的數據庫匹配 但某些情況下可信的匹配也會過濾掉17具體步驟具體步驟 Blast輸出結果輸出結果上部上部BLAST搜索的類型、關于查詢內容和所搜索的數據庫的描述以及一個分類連接可以將結果按照物種進行分類中部中部數據庫中序列與查詢序列相匹配的項的列表,分為圖像和列表兩種描述方式下部下部一系列的兩兩序列比對, 4種衡量的分數:比特分數、期望分數、一致性百分比、正性(相似性百分比)18具體步驟具體步驟 Blast輸出結果輸出結果databaseprogramquerytaxonomy19具體步驟具體步驟 Blast輸出結果輸出結果每一個條帶

8、表示數據庫中的一個與查詢序列相匹配的蛋白質或核酸序列,被標以不同顏色表示親緣關系的遠近(根據比對的分),最接近匹配用紅色表示。High scoreslow e values20具體步驟具體步驟Blast輸出結果輸出結果Score 使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結果,一般來說,匹配片段越長、 相似性越高則Score值越大。E value 在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。21具體步驟具體步驟 Blast輸出結果,改變格式輸出結果,改

9、變格式22 BLAST搜索策略總圖示例搜索策略總圖示例23如何處理過多的結果在“limit Entrez query”窗口輸入“refseq”,這樣所有返回結果都帶 有一個refseq號,可去掉冗余的數據庫匹配結果。利用生物體的種類對數據庫返回結果作出限制。利用序列的一部分進行搜索。如利用獨立的結構域序列就可進行多結構域蛋白的檢索。調整打分矩陣使其更恰當地體現你的query和數據庫匹配之間的相似度。調整期望值。降低E值可減少返回的數據庫中的匹配項。BLAST 搜索的一些策略搜索的一些策略24 如何處理過少的結果很多基因或蛋白在數據庫中沒有或只有極少數的匹配項。當新的微生物基因組測序完成時,預測到的蛋白質有一半不和其他任何蛋白相匹配。用于提高BLAST搜索得到的數據庫匹配項數目的策略:去

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論