序列比對基礎與BLAST入門(打分矩陣)課件_第1頁
序列比對基礎與BLAST入門(打分矩陣)課件_第2頁
序列比對基礎與BLAST入門(打分矩陣)課件_第3頁
序列比對基礎與BLAST入門(打分矩陣)課件_第4頁
序列比對基礎與BLAST入門(打分矩陣)課件_第5頁
已閱讀5頁,還剩50頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

序列比對基礎與BLAST入門生物信息學補充一:打分矩陣序列比對的基本原理提出比對要考慮的問題專業算法(構建打分矩陣)數學程序計算機搜索數據庫計算機給出比對結果(比對分數、顯著性檢驗)打分二、打分矩陣(ScoringMatrix)簡介要對兩個序列進行比對,必須首先打出其相似性的定量分值,于是需要一個打分矩陣。矩陣(Matrix):是由m×n個數組成的一個m行n列的矩形表格。矩陣(Matrix)某公司生產四種產品A、B、C、D,第一季度的銷量分別如下表所示:產品銷量(件)月份ABCD

一月300250220180

二月320230200200

三月310280210220

矩陣(Matrix)為了研究方便,在數學中常把表中的說明去掉,將上表簡化為如下的矩形數表:由3×4個數組成的一個3行4列的矩形表格。此表在數學上稱為矩陣(縱橫排列的二維數據表格)。核酸打分矩陣----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC|||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT上述序列比對過程中,只考慮了堿基的同一性,即兩個序列之間完全相同的匹配堿基數目。可以把這種只考慮堿基同一性的矩陣理解為一個分數值為1和0的分數矩陣,即相同殘基的分數值為1,不同殘基的分數值為0。蛋白質打分矩陣保守性替換(conservativesubstitution)

通常在某些位點上有一些氨基酸被另外一些理化特性相似的氨基酸所代替,這種突變可稱為保守性替換。保守性替換一般不會影響蛋白質的結構和功能。

與核苷酸序列比對不同,氨基酸序列比對不僅要考慮殘基是否相同,還要考慮殘基是否相似以及相似的不同程度。

LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE

||.|:|||||:

ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD

1.極性中性氨基酸(親水,含羥基)2.堿性氨基酸王鏡巖編《生物化學》(第三版)第127頁~~~~~EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTMLSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTFTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTFLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLFVQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFLVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRWPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD...人類lipocalin(脂質運載蛋白)家族多序列比對GXW模體蛋白質打分矩陣我們想要衡量氨基酸配對的相似性程度,這就需要有氨基酸相似性的定量標準。單一打分矩陣滿足不了此種需求。相似性打分矩陣,是基于遠距離進化過程中觀察到的殘基替換率,并用不同的分數值表征不同殘基之間的相似性程度。恰當選擇相似性分數矩陣,可以提高序列比對的敏感度。PAM矩陣和BLOSUM矩陣。三、PAM矩陣MargaretDayhoff等研究了34種蛋白質超家族(85%以上一致性的序列),通過這些同源蛋白序列的比對,總結出一個氨基酸被另一個氨基酸替換的概率,從而構建出PAM矩陣。誰說女子不如男!三、PAM矩陣PAM(acceptedpointmutation)可接受點突變

同源蛋白質在進化過程中會出現一個氨基酸被另一個氨基酸替換的現象,若此種突變通過自然選擇被種群接受,并可見于后代的基因組中,便稱為可接受點突變。果蠅

GAKKVIISAPSAD.APM..FVCGVNLDAYKPDMKVVSNASCTTNCLAPLA

人類

GAKRVIISAPSAD.APM..FVMGVNHEKYDNSLKIISNASCTTNCLAPLA

植物

GAKKVIISAPSAD.APM..FVVGVNEHTYQPNMDIVSNASCTTNCLAPLA

細菌

GAKKVVMTGPSKDNTPM..FVKGANFDKY.AGQDIVSNASCTTNCLAPLA

酵母

GAKKVVITAPSS.TAPM..FVMGVNEEKYTSDLKIVSNASCTTNCLAPLA

古細

GAKKVLISAPPKGDEPVKQLVYGVNHDEYDGE.DVVSNASCTTNSITPVA

果蠅

KVINDNFEIVEGLMTTVHATTATQKTVDGPSGKLWRDGRGAAQNIIPAST

人類

KVIHDNFGIVEGLMTTVHAITATQKTVDGPSGKLWRDGRGALQNIIPAST植物

KVVHEEFGILEGLMTTVHATTATQKTVDGPSMKDWRGGRGASQNIIPSST

細菌

KVINDNFGIIEGLMTTVHATTATQKTVDGPSHKDWRGGRGASQNIIPSST

酵母

KVINDAFGIEEGLMTTVHSLTATQKTVDGPSHKDWRGGRTASGNIIPSST

古細

KVLDEEFGINAGQLTTVHAYTGSQNLMDGPNGKP.RRRRAAAENIIPTST

果蠅

GAAKAVGKVIPALNGKLTGMAFRVPTPNVSVVDLTVRLGKGASYDEIKAK

人類

GAAKAVGKVIPELNGKLTGMAFRVPTANVSVVDLTCRLEKPAKYDDIKKV

植物

GAAKAVGKVLPELNGKLTGMAFRVPTSNVSVVDLTCRLEKGASYEDVKAA

細菌

GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKAATYEQIKAA酵母

GAAKAVGKVLPELQGKLTGMAFRVPTVDVSVVDLTVKLNKETTYDEIKKV

古細

GAAQAATEVLPELEGKLDGMAIRVPVPNGSITEFVVDLDDDVTESDVNAA

不同物種3磷酸甘油醛脫氫酶多序列比對2、氨基酸出現頻率Gly 8.9% Arg 4.1%Ala 8.7% Asn 4.0%Leu 8.5% Phe 4.0%Lys 8.1% Gln 3.8%Ser 7.0% Ile 3.7%Val 6.5% His 3.4%Thr 5.8% Cys 3.3%Pro 5.1% Tyr 3.0%Glu 5.0% Met 1.5%Asp 4.7% Trp 1.0%blue=6codons;red=1codon3、氨基酸的相對突變幾率每種氨基酸發生突變的次數除以該氨基酸出現的總次數Asn 134 His 66Ser 120 Arg 65Asp 106 Lys 56Glu 102 Pro 56Ala 100 Gly 49Thr 97 Tyr 41Ile 96 Phe 41Met 94 Leu 40Gln 93 Cys 20Val 74 Trp 18Notethatalanineisnormalizedtoavalueof100.TrpandCysareleastmutable.AsnandSeraremostmutable.PAM1突變概率矩陣(萬分之一)Originalaminoacid表示一個PAM進化時間內同源序列中的丙氨酸有0.21%的可能被替換為甘氨酸三、PAM矩陣利用矩陣的乘法,可將PAM1矩陣自乘若干次得到其他的PAM矩陣。比如PAM1矩陣自乘250次便得到PAM250矩陣。PAM后面的數值越大,表示氨基酸的變化越大,進化距離越遠。PAM250表示兩個同源蛋白序列中,每100個氨基酸有250次變化。PAM250突變概率矩陣反映了遠緣關系(20%氨基酸一致性)蛋白之間氨基酸替換的規律。PAM1突變概率矩陣(萬分之一)Originalaminoacid表示一個PAM進化時間內同源序列中的丙氨酸有0.21%的可能被替換為甘氨酸三、PAM矩陣人和黑猩猩同源蛋白的比對,屬近緣關系的比較,PAM

1可反映其氨基酸替換的規律。人和細菌同源蛋白的比對,屬遠緣關系的比較,PAM

250可反映其氨基酸替換的規律。PAM后面的數值越大,表示氨基酸的變化越大,進化距離越遠。三、PAM矩陣研究PAM矩陣的目的是要在序列比對時,構建一個評價兩條序列相關性的打分系統。為了便于打分,Dayhoff將PAM突變概率矩陣進行對數轉換,從而構建出了可以實際應用的PAM打分矩陣。PAM250突變概率矩陣(%)PAM250打分矩陣(用于遠緣關系比對)氨基酸匹配少,氨基酸替換會得到較少的罰分,最終會得到一個較高的分數。PAM10logoddsscoringmatrixPAM10打分矩陣(用于近緣關系比對)氨基酸匹配多,匹配項得分高,最終會得到一個較高的分數。PAM250與PAM10的比較遠緣關系的蛋白比對,若用PAM250打分,由于氨基酸的替換會得到較少的罰分,最終會得到一個較高的分數。近緣關系的蛋白比對,若用PAM10打分,由于氨基酸的匹配多,且匹配項得分高,則會得到一個較高的分數。構建PAM打分矩陣的過程(Dayhoff等,1978)構建序列相似(大于85%)的比對(34種蛋白質超家族)計算氨基酸的相對突變率(一個氨基酸被其它氨基酸替換的次數)構建PAM突變概率矩陣將PAM1自乘N次,可以得到PAM(N)取常用對數,得到PAM打分矩陣四、BLOSUM矩陣(Henikoff夫婦,1992)PAM矩陣的產生是基于相似性較高(85%以上)的序列比對,那些進化距離較遠的矩陣(如PAM250)是從初始模型中推算出來而不是直接計算得到的,其準確性受到一定限制。而序列分析的關鍵是檢測進化距離較遠的序列之間是否具有同源性,因此PAM矩陣在實際使用時存在一定的局限。四、BLOSUM矩陣(Henikoff夫婦,1992)BLOSUM矩陣(blockssubstitutionmatrix)模塊替換矩陣。與PAM矩陣相比,BLOSUM矩陣是根據進化距離較遠的蛋白序列模塊(保守區域)比對直接計算得到的。因此,BLOSUM矩陣比PAM矩陣總的來說要好,尤其是BLOSUM62被大多數比對搜索工具選作為默認的打分矩陣。BLOSUM62來自于≥62%相似度的序列比對。BLOSUM80來自于≥80%相似度的序列比對。Blosum62scoringmatrix(默認打分矩陣)PAM250打分矩陣(用于遠緣關系比對)小鼠與大鼠的RBP小鼠與細菌的lipocalin近緣關系比對遠緣關系比對五、PAM與BLOSUM的比較五、PAM與BLOSUM的比較低值PAM矩陣和高值BLOSUM矩陣最適合于近緣關系的蛋白比對。高值PAM矩陣和低值BLOSUM矩陣最適合于遠緣關系的蛋白比對。BLAST上機實習內容對于序列3,選擇blastp,將物種限制為bacteria,其他參數默認,觀察改變打分矩陣(Matrix)時搜索結果有什么變化?(記下5種打分矩陣的匹配序列總數并按大小排序)BLOSUM45(94)>BLOSUM62(62)>BLOSUM80(45)>PAM70(10)>PAM30(1)全局比對與局部比對的算法全局比對(globalalignment)對兩條核苷酸或氨基酸序列的全長進行比對。局部比對(localalignment)對兩條核苷酸或氨基酸序列的一部分進行比對。TKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHRVQENFDVNKYLGTWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTVLPKLAGTWHSMAVNKYLGTWYEIE局部比對通常比全局比對更有意義因為它能發現序列中的保守區域六、全局比對與局部比對的算法全局比對的最優化算法:

Needleman-Wunsch算法

(1970)局部比對的最優化算法:

Smith-Waterman算法(1981)FASTA和BLAST是Smith-Waterman算法的替代版本,它們屬于一種啟發式算法,優點是速度快,但沒有Smith-Waterman算法準確。

補充二:BLAST搜索注意事項BLAST搜索注意事項1、BLAST搜索類型的選擇

blastp比blastn更能發現序列間的同源關系。

(1)如果查詢序列為蛋白質序列,最好先用

blastp進行比對搜索,再用tblastn進行翻譯后的比對搜索。

(2)如果查詢序列為編碼蛋白的DNA序列,最好用blastx

進行翻譯后的蛋白質序列比對搜索。若blastx沒能得到什么結果,則可嘗試tblastx。

(3)但下列情況應考慮采用blastn比對搜索:鑒定一條DNA序列的身份,或者查詢序列為非編碼序列時。BLAST搜索注意事項2、低復雜度區域的過濾3、重復片段的去除4、E值的設置5、打分矩陣的選擇BLAST搜索注意事項6、搜索結果太多怎么辦?調整期望值;降低E值利用Entrezquery進行限制限定物種BLAST搜索注意事項7、搜索結果太少怎么辦?調整打分矩陣;選擇更高PAM值或更低BLOSUM值的打分矩陣調整期望值;提高E值選擇特定的數據庫(如est、HTGS等)選用其他更加靈敏的BLAST搜索工具(如PSI-BLAST)8、比對結果的判讀比對結果的判讀(統計學+經驗+專業知識)E值:E≤1×10-4

,E≤(0.05/數據庫的序列總數)。比如:E≤(0.05/500萬)=1×10-8

參考E值:blastn:E≤1×10-6;blastp:E≤1×10-3經驗法則(針對蛋白質序列):①如果兩個序列的長度都大于100,在適當地加入空位之后,它們配對的一致性達到25%以上,則兩個序列相關;(DNA:一致性達到70%以上)

②如果配對的一致性小于15%,則不管兩個序列的長度如何,它們都不可能相關;③如果兩個序列的一致性在15%25%之間,它們可能是相關的也可能不相關(模糊區)。專業知識E值與P值的關系E

P

10 0.999954605 0.993262052 0.864664721 0.632120560.1 0.09516258(about0.1)0.05 0.04877058(about0.05)0.001 0.00099950(about0.001)0.0001 0.0001000當E值≤0.1時,E≈

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論