第七章蛋白質結構預測的原理與方法-中北大學_第1頁
第七章蛋白質結構預測的原理與方法-中北大學_第2頁
第七章蛋白質結構預測的原理與方法-中北大學_第3頁
第七章蛋白質結構預測的原理與方法-中北大學_第4頁
第七章蛋白質結構預測的原理與方法-中北大學_第5頁
已閱讀5頁,還剩93頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第七章:蛋白質結構預測的原理與方法

第一節:引言第二節:影響蛋白質折疊的因素第三節:蛋白質結構分析與蛋白質結構數據庫第四節二級結構預測第五節三級結構預測第六節蛋白質結構預測發展趨勢2/1/20231第一節:引言所謂的蛋白質結構預測是指從蛋白質的氨基酸序列預測其三維結構。2/1/20232蛋白質的4級結構一級結構(Primary)-氨基酸序列二級結構(Secondary)-螺旋(alphahelix)-片層(betasheet)-盤繞(旋轉)三級結構(Tertiary)-3D構象四級結構(Quaternary)-多肽鏈組合2/1/20233對蛋白質進行結構預測研究主要是基于兩種需要發展起來的:首先是蛋白質的氨基酸序列與其三維空間結構的關系可以看作是分子生物學中心法則的延伸;其次,蛋白質結構的信息對于生物學研究的各個相關方面都有重要的作用。從數學上講,蛋白質結構預測的問題是尋找一種從蛋白質氨基酸線性序列到蛋白質所有原子三維坐標的映射。蛋白質結構預測的一般流程如下:P1492/1/20234蛋白質結構預測主要有兩大類方法:一類是理論分析方法或從頭預測方法是指通過理論計算(分子力學、分子動力學)進行結構預測,該方法假設折疊后的蛋白質取能量最低的構象。從原則上講,此種方法可行,但在實際應用中此法不合適。原因:(1)自然的蛋白質結構和未折疊的蛋白質結構兩者之間能量差異非常小;(2)蛋白質可能的構象空間龐大,針對蛋白質折疊的計算量非常大;(3)計算模型中力場參數的不確定性。2/1/20235另一類蛋白質結構預測的方法就是統計法。對已知結構的蛋白質進行統計分析,建立序列到結構的映射模型,進而根據映射模型對未知結構的蛋白質直接從氨基酸序列預測結構。映射模型可以是定性的,也可以是定量的。此種方法包括:經驗性方法、結構規律提取法和同源模型化方法等。經驗法:根據一定序列形成一定結構的傾向性進行結構預測。結構規律提取法:從蛋白質結構數據庫中提取關于蛋白質結構形成的一般性原則,指導建立未知結構的蛋白質模型。有許多提取結構規律的方法,如通過視察觀察方法、基于統計分析和序列多重比對的方法、利用人工神經網絡提取規律的方法。2/1/20236同源模型化方法:通過同源序列分析或者模式匹配預測蛋白質的空間結構或者結構單元(螺旋、轉角、DNA結合域)。原理:每一個自然的蛋白質具有一個特定的結構,但許多不同的序列會采用同一個基本的折疊。即具有相似序列的蛋白質傾向于折疊成相似的空間結構。在蛋白質結構預測方面,同源模型化方法預測結果最可靠。蛋白質的同源性比較往往借助于序列比對進行,通過序列比對可以發現蛋白質之間的進化關系。利用同源模型化方法可以預測10-30%的蛋白結構,然而,許多具有相似結構的蛋白質是遠程同源的,其等同序列不到25%,這些蛋白質的同源性不能被傳統的序列比對所識別。2/1/20237搜索遠程同源蛋白質是一項非常困難的,處理這個過程要通過“線索”技術。找到遠程同源蛋白質后,可以通過遠程同源建模方法建立蛋白質的結構模型。如果既沒找到一般的同源蛋白質,又沒找到遠程同源蛋白質,如何預測?可行的是充分利用現有數據庫中的信息,包括二級結構和空間結構的信息,首先從蛋白質序列預測其二級結構,然后從二級結構出發,預測蛋白質的空間結構,或采用從頭預測法進行預測。2/1/20238第二節:影響蛋白質折疊的主要因素除了原子間的共價連接以外,蛋白質結構的形成及穩定性在很大程度上依賴于非鍵相互作用。對于水溶性蛋白質來說:多肽鏈的折疊主要受氨基酸側鏈的疏水性所驅動,在蛋白質內部形成緊密的堆積。影響蛋白質結構穩定性的非共價鍵有:1、范德華力2/1/202392、氫鍵多肽主鏈上羥基氧和酰胺氫之間所形成的,此外,還可在側鏈與側鏈、側鏈與介質水、主鏈肽基與側鏈或主鏈肽基與水之間。3、鹽健離子鍵,在近中性環境中,蛋白質分子中酸性氨基酸殘基側鏈電離后帶負電荷,堿性氨基酸殘基側鏈電離后帶正電荷,二者之間形成離子鍵。4、二硫鍵在多肽鏈的轉角附近形成。5、疏水鍵介質中球狀蛋白質的折疊總是傾向與把疏水殘基埋藏在分子的內部,這一現象稱為疏水作用。2/1/202310第三節:蛋白質結構分析及蛋白質結構預測目前,多數蛋白質結構預測方法都是基于知識的預測,即總結各種蛋白質相關的規律性知識。蛋白質結構根據不同的層次可分為:一級結構、二級結構、三級結構、四級結構。2/1/202311蛋白質的一級結構(primarystructure)蛋白質的一級結構是指多肽鏈中氨基酸的序列。

2/1/202312蛋白質的二級結構二級結構主要有以下幾種形式:(i)螺旋(ii)折疊

–平行折疊反平行折疊(iii)—轉角–連接作用(iv)無規卷曲-沒有確定規律性的肽鏈構象,但仍然是緊密有序的穩定結構(v)無序結構2/1/202313蛋白質的超二級結構

(i)—環—花樣(ii)發夾花樣 (—環—花樣)(iii)希臘圖案花樣 由四條反平行片組成(iv)——花樣 -環--環-2/1/202314三級結構(tertiarystructure)在二級結構基礎上的肽鏈再折疊形成的構象。2/1/202315蛋白質的四級結構

組成蛋白質的多條肽鏈在天然構象空間上的排列方式,多以弱鍵互相連接。疏水力、氫鍵、鹽鍵每條肽鏈本身具有一定的三級結構,就是蛋白質分子的亞基。2/1/2023161、有關氨基酸殘基的信息從一級結構的角度講了各個氨基酸殘基所能提供的信息。如脯氨酸能以較大的概率采取順勢肽鍵構象。2、周期性的二級結構螺旋和折疊的結構3、非周期性的二級結構連接規則二級結構間的區域統稱為環區,環區也遵循一定的規律。2/1/2023174、殘基間的相互作用及埋藏5、超二級結構6、蛋白質數據庫PDB數據庫http:///7、蛋白質結構域的折疊模式與蛋白質結構分類數據庫(1)蛋白質結構域的折疊模式(2)蛋白質折疊模式的有限性2/1/202318(3)蛋白質結構分類數據庫最著名的蛋白質結構分類數據庫就是SCOP和CATH數據庫。8、蛋白質的進化同源性的蛋白質是從一個共同的祖先進化而來,往往具有相關的功能并采取相似的三維結構。類似的蛋白質可以采取相似的三維結構,這種不同源的蛋白質采取類似三維結構的現象可能是收斂進化造成的。2/1/202319蛋白質序列的基本性質分析蛋白質的基本序列性質分析是蛋白質序列分析的基本方面,包括蛋白質的理化性質、親水性/疏水性、跨膜區、信號肽、Coil區分析及結構功能域等方面的分析。蛋白質的理化性質包括分子質量、分子式、理論等電點、氨基酸組成、消光系數、穩定性等。2/1/2023201、利用ProtParam工具分析水稻瘤矮病毒P8(RicegalldwarfvirusP8)蛋白質的理化性質2/1/2023212、蛋白質的疏水性分析有兩種方法:一是利用BioEdit軟件進行;二是通過protscale在線分析,以RGDVP8蛋白質為例研究其疏水性。2/1/2023223、蛋白質的跨膜區分析膜蛋白是一類結構獨特的蛋白質,執行著重要的細胞生物學功能。常見的跨膜區分析的在線網絡工具有:名稱網址說明TMHMMhttp://www.cbs.dtu.dk/services/TMHMM/判定蛋白質是否為膜蛋白TMpredhttp:///software/TMPRED_form.html

準確預測跨膜蛋白的跨膜片段TMPhttp://www.mbb.ki.se/tmap/采用多序列比對方式預測跨膜區2/1/202323TMHMM是一個基于隱馬爾科夫模型(HMM)預測跨膜螺旋的程序,它綜和了跨膜區疏水性、電荷偏倚、螺旋長度和膜蛋白拓撲學限制等性質,可對跨膜區及膜內外區進行整體預測。由于其在區分可溶性蛋白和膜蛋白方面尤為見長,故常用于判定一個蛋白是否為膜蛋白。例:使用TMHMMServerv.2.0對RGDVP8蛋白進行跨膜區分析。背景:在研究RGDVP8蛋白的疏水性使用的K-DTGREASE算法能有效的檢測出RGDVP8蛋白高疏水性的區域,但不能據此說明P8蛋白含有跨膜區,因為水溶性球狀蛋白的內埋區也是基本為疏水性的。故可以使用TMHMM軟件分析P8蛋白以確定其是否為跨膜蛋白。2/1/2023244、信號肽預測信號肽的概念:分泌蛋白新生肽鏈N端的一段20~30氨基酸殘基組成的肽段。將分泌蛋白引導進入內質網,同時這個肽段被切除。現這一概念已擴大到決定新生肽鏈在細胞中的定位或決定某些氨基酸殘基修飾的一些肽段。根據信號肽組成及其位置特征,可將信號肽劃分為四大類:(1)分泌信號肽(含RR-motif信號肽);(2)脂蛋白信號肽;(3)細菌素和信息素信號肽;(4)Pilin-like信號肽。

2/1/2023255、Coil區分析卷曲螺旋(Coiledcoil)是蛋白質中由2-7條α-螺旋鏈互相纏繞形成類似麻花狀結構的總稱。卷曲螺旋是控制蛋白質寡聚化的元件,含有卷曲螺旋結構的蛋白質主要是一些轉錄因子、骨架蛋白、動力蛋白、膜蛋白、酶等,在機體內執行著分子識別、代謝調控、細胞分化、肌肉收縮、膜通道等生物學功能。七肽重復區(HR)是典型的卷曲螺旋結構類型之一,HR是由多個七肽單元連接而成的重復序列。2/1/202326預測蛋白質中是否含有卷曲螺旋結構,可以聯機訪問COILS服務器,該服務器提供簡單的Web提交界面,原理是將輸入序列提交到已知包含卷曲螺旋蛋白結構的數據庫中進行搜索,同時與包含球狀蛋白序列的PDB次級庫進行比較,根據兩個數據庫分析的情況算出目的序列形成卷曲的概率。實例:使用COILSServer對RGDVP2蛋白卷曲螺旋預測分析。2/1/202327蛋白質的結構域分析一、結構域分析結構域(structuredomain)是在蛋白質三級結構中介于二級和三級結構之間的可明顯區分但又相對獨立的折疊單元,每個結構域自身形成緊實的三維結構,可以獨立存在或折疊,但結構域與結構域之間關系較為松散。結構功能域通常由25-300個氨基酸殘基組成,不同蛋白質分子中結構域的數目不同,同一蛋白質分子中的幾個結構域彼此相似或不盡相同。常見的結構功能域主要有:全平行結構域、反平行結構域、α+β結構域、α/β結構域及其他折疊類型。常見的結構功能域分析在線工具及數據庫2/1/202328第四節 蛋白質二級結構預測

蛋白質序列:↓二級結構:2/1/202329二級結構預測

蛋白質序列:二級結構:QLMGERIRARRKKLK→STHHHHHHHHHHHHT

2/1/2023301、二級結構預測概述蛋白質的二級結構預測的基本依據是: 每一段相鄰的氨基酸殘基具有形成一定二級結構的傾向。二級結構預測問題是模式分類問題二級結構預測的目標:判斷每一段中心的殘基是否處于螺旋、折疊、轉角(或其它狀態)之一的二級結構態,即三態。

2/1/202331基本策略(1)

相似序列→相似結構QLMGERIRARRKKLKQLMGAERIRARRKKLK結構?2/1/202332基本策略(2)

分類分析α螺旋提取樣本聚類分析學習分類規則預測….-Gly-Ala-Glu-Phe-….2/1/202333二級結構預測的方法大體分為三代:第一代是基于單個氨基酸殘基統計分析從有限的數據集中提取各種殘基形成特定二級結構的傾向,以此作為二級結構預測的依據。第二代預測方法是基于氨基酸片段的統計分析統計的對象是氨基酸片段片段的長度通常為11-21片段體現了中心殘基所處的環境在預測中心殘基的二級結構時,以殘基在特定環境形成特定二級結構的傾向作為預測依據2/1/202334這些算法可以歸為幾類:(1)基于統計信息(2)基于物理化學性質(3)基于序列模式(4)基于多層神經網絡(5)基于多元統計(6)基于機器學習的專家規則(7)最鄰近算法2/1/202335第一代和第二代預測方法對三態預測的準確率都小于70%,而對折疊預測的準確率僅為2848%其主要原因是只利用局部信息第三代方法(考慮多條序列)運用長程信息和蛋白質序列的進化信息準確度有了比較大的提高2/1/2023362、蛋白質二級結構預測方法經驗參數法蛋白質二級結構的組成規律性比較強;三種基本二級結構平均占氨基酸殘基的85%;各種二級結構非均勻地分布在蛋白質中。2/1/202337有些蛋白質中含有大量的螺旋如血紅蛋白和肌紅蛋白而一些蛋白質中則不含或者僅含很少的螺旋如鐵氧蛋白有些蛋白質的二級結構以折疊為主如免疫球蛋白例:肽鏈Ala(A)-Glu(E)-Leu(L)-Met(M)傾向于形成螺旋肽鏈Pro(P)-Gly(G)-Tyr(Y)-Ser(S)則不會形成螺旋2/1/202338每種氨基酸出現在各種二級結構中傾向或者頻率是不同的例如:Glu(谷氨酸)主要出現在螺旋中

Asp(天冬氨酸)和Gly(甘氨酸)主要分布在轉角中

Pro(脯氨酸)也常出現在轉角中,但是絕不會出現在螺旋中可以根據每種氨基酸殘基形成二級結構的傾向性或者統計規律進行二級結構預測2/1/202339經驗參數法由Chou和Fasman在70年代提出來是一種基于單個氨基酸殘基統計的經驗預測方法。 通過統計分析,獲得的每個殘基出現于特定二級結構構象的傾向性因子,進而利用這些傾向性因子預測蛋白質的二級結構。2/1/202340一個氨基酸殘基的構象傾向性因子定義為

Pi=Ai/Ti (i=,β,c,t) 式中下標i表示構象態 如螺旋、β折疊、轉角、無規卷曲等;Ti是所有被統計殘基處于構象態i的比例;Ai是第A種殘基處于構象態i的比例;Pi大于1.0表示該殘基傾向于形成二級結構構象i,小于1.0則表示傾向于形成其它構象。

2/1/202341

發現關于二級結構的經驗規則 基本思想是在序列中尋找規則二級結構的成核位點和終止位點。

掃描輸入的氨基酸序列,利用一組規則發現可能成為特定二級結構成核區域的短序列,然后對于成核區域進行擴展,不斷擴大成核區域,直到傾向性因子小于1.0為止。規則:(i)α螺旋規則

(ii)β折疊規則

(iii)轉角規則

(iv)重疊規則

延伸成核區延伸2/1/202342

(i)α螺旋規則沿蛋白質序列尋找α螺旋核相鄰的6個殘基中如果有至少4個殘基傾向于形成α螺旋,則認為是螺旋核。從螺旋核向兩端延伸直至四肽片段的α螺旋傾向性因子的平均值{P}<1.0為止。將螺旋兩端各去掉3個殘基剩余部分若長于6個殘基,而且{P}>1.03,則預測為螺旋。

延伸螺旋核延伸2/1/202343(ii)β折疊規則相鄰6個殘基中若有4個傾向于形成β折疊,則認為是折疊核。折疊核向兩端延伸直至4個殘基的平均折疊傾向性因子{P}<1.0。若延伸后的片段的{P}>1.05,則預測為β折疊。2/1/202344(iii)轉角規則轉角的模型為四肽四肽片段Pt的平均值大于100,并且Pt的均值同時大于P

的均值以及P

的均值,則可以預測這樣連續的4個殘基形成轉角。

則可以預測這樣連續的4個氨基酸形成轉角。2/1/202345(iv)重疊規則

對于螺旋和折疊的重疊區域,按{Pa}和{P}的相對大小進行預測若{Pa}大于{P},則預測為螺旋;反之,預測為折疊。2/1/202346(2)GOR方法是一種基于信息論和貝葉斯統計學的方法GOR將蛋白質序列當作一連串的信息值來處理GOR方法不僅考慮被預測位置本身氨基酸殘基種類的影響,而且考慮相鄰殘基種類對該位置構象的影響2/1/202347序列窗口中心殘基窗口中各個殘基對中心殘基二級結構的支持程度2/1/202348兩個事件S和R的條件概率P(S|R)

即在R發生的條件下,S發生的概率定義信息為:

若S和R無關,則I(S;R)=0若R的發生有利于S的發生,則I(S;R)>0若R的發生不利于S的發生,則I(S;R)<02/1/202349I(S;R)在二級結構預測中的含義R代表中心氨基酸及其所處環境S代表二級結構類型I(S;R)代表中心氨基酸處于S的信息值2/1/202350

例如:假定數據庫中有1830個殘基,

780個處于螺旋態,1050個處于非螺旋態庫中共有390個丙氨酸(A),有240個A處于螺旋態,其余150個A處于非螺旋態。

H:代表二級結構螺旋態;

H·:除H外的其它類型二級結構。

I(△H;A)就是丙氨酸A處于中心位置時的螺旋信息值2/1/202351(3)基于氨基酸疏水性的預測方法——立體化學方法氨基酸的理化性質對二級結構影響較大在進行結構預測時考慮氨基酸殘基的物理化學性質如疏水性、極性、側鏈基團的大小等,根據殘基各方面的性質及殘基之間的組合預測可能形成的二級結構。“疏水性”是氨基酸的一種重要性質,疏水性的氨基酸傾向于遠離周圍水分子,將自己包埋進蛋白質的內部。2/1/2023522/1/2023532/1/202354

α螺旋的形成規律:在一段序列中發現第i、i+3、i+4位(如1、4、5)是疏水殘基時,這一片段就被預測為α螺旋;當發現第i、i+1、i+4位(如7,8,11)為疏水殘基時,這一片段也被預測為α螺旋。2/1/202355對于β折疊的形成規律:對于β折疊,也存在著一些特征的親疏水殘基間隔模式,埋藏的β折疊通常由連續的疏水殘基組成,一側暴露的β折疊則通常具有親水-疏水的兩殘基重復模式。原則上,通過在序列中搜尋特殊的親疏水殘基間隔模式,就可以預測α螺旋和β折疊。點模式方法(Biou等人提出):將20種氨基酸殘基分為親水、疏水以及兩性殘基三類,用八殘基片段表征親疏水間隔模式。

2/1/202356疏水性定量計算2/1/202357以一個二進制位代表一個殘基,疏水為1,親水為0,共八位。這樣,八殘基片段的親疏水模式可用0255的數值來表示。α螺旋的特征模式對應的值為:9,12,13,17,……,201,205,217,219,237。

β折疊的特征模式:由連續的1或交替的01構成。2/1/202358(4)同源分析法(最近鄰居法)將待預測的片段與數據庫中已知二級結構的片段進行相似性比較,利用打分矩陣計算出相似性得分,根據相似性得分以及數據庫中的構象態,構建出待預測片段的二級結構。該方法對數據庫中同源序列的存在非常敏感,若數據庫中有相似性大于30%的序列,則預測準確率可大大上升。2/1/202359更為合理的方法: 是將待預測二級結構的蛋白質U與多個同源序列進行多重比對,對于U的每個殘基位置,其構象態由多個同源序列對應位置的構象態決定,或取出現次數最多的構象態,或對各種可能的構象態給出得分值。2/1/202360(5)人工神經網絡方法2/1/202361(6)綜合方法綜合方法不僅包括各種預測方法的綜合,而且也包括結構實驗結果、序列對比結果、蛋白質結構分類預測結果等信息的綜合。多個程序同時預測,綜合評判一致結果序列比對與二級結構預測雙重預測首先預測蛋白質的結構類型然后再預測二級結構2/1/2023623、利用進化信息預測蛋白質的二級結構蛋白質序列家族中氨基酸的替換模式是高度特異的,如何利用這樣的進化信息是二級結構預測的關鍵。蛋白質二級結構預測軟件系統PHD第一步工作是形成同源序列的多重對比排列第二步工作是將得到的多重比對的統計結果送到一個神經網絡中計算。2/1/2023634、RNA二級結構的預測RNA的結構可以分為三個層次一級結構二級結構空間結構2/1/2023642/1/202365RNA二級結構的預測方法基于序列比較的方法:通過多序列比對,根據相似序列具有相似結構的原理進行二級結構預測。能量最小化方法:通過各種能量最優化方法或者分子動力學計算評價所有可能配對的能量,進而發現具有最小能量的結構RNA是一種重要的生物大分子,是DNA和蛋白質之間的一個中間語言,因此RNA二級結構的準確預測對于了解基因調控和蛋白質產物表達有重要作用。2/1/202366RNA二級結構預測軟件有:RNAdraw1.1bRNA二級結構分析軟件;RNAstructure4.5UNIX平臺軟件mfold的windows版本;Circles0.1.0使用比較的分析方法RNA二級結構軟件,并以標準格式輸出預測的二級結構;非編碼RNA數據庫:2/1/2023675、二級結構在線預測許多蛋白質二級結構預測程序包含在標準的分子生物學軟件或商業化軟件中,其中,絕大部分可從網上免費下載。(1)PHD算法(2)GOR算法2/1/202368第五節蛋白質三維結構預測

1、同源模型化方法主要思想: 對于一個未知結構的蛋白質,找到一個已知結構的同源蛋白質,以該蛋白質的結構為模板,為未知結構的蛋白質建立結構模型。依據:任何一對蛋白質,如果兩者的序列等同部分超過30%,則它們具有相似的三維結構,即兩個蛋白質的基本折疊相同,只是在非螺旋和非折疊區域的一些細節部分有所不同。

2/1/202369假設待預測三維結構的目標蛋白質為U(Unknown),利用同源模型化方法建立結構模型的過程包括下述6個步驟:(1)搜索結構模型的模板(T)

(2)序列比對(3)建立骨架(4)構建目標蛋白質的側鏈(5)構建目標蛋白質的環區(6)優化模型UT2/1/202370構建目標蛋白質的側鏈2/1/202371預測結果準確率:對于具有60%等同的序列,用上述方法所建立的三維模型非常準確。若序列的等同部分超過60%,則預測結果將接近于實驗得到的測試結果。一般如果序列的等同部分大于30%,則可以期望得到比較好的預測結果。2/1/202372通過SWISS-MODEL同源模建RGDVP8蛋白的三維結構常見的蛋白質三級結構預測網站如上圖所示,SWISS-MODEL是SIB提供的目前最著名的蛋白質三級結構預測服務器,建立在已知大分子結構基礎上,利用同源模建的方法對位置序列的蛋白質三級結構進行預測。該服務器創建于1993年,面向全世界的生物化學與分子生物學研究工作者,提供免費的自動模建服務。提供的同源模建主要有兩種方式:首選模式和項目模式。2/1/202373以RGDVP8蛋白為研究對象采用首選模式進行同源模建。2/1/202374例:通過CPHmodels同源模建RGDVP8蛋白的三維結構。CPHmodels是丹麥理工大學生物序列分析中心提供的蛋白質三維結構預測服務器,也是利用神經網絡進行同源模建預測蛋白質結構的方法。與SWISS-MODEL相比較,CPHmodels更為簡單易學,期預測的結果會將目的序列與模板序列比對的空位以斷裂的方式表示在三維結構中。2/1/202375

2、線索化方法(折疊識別方法)有很多蛋白質具有相似的空間結構,但它們的序列等同部分小于25%,即遠程同源。對于這類蛋白質,很難通過序列比對找出它們之間的關系,必須設計新的分析方法。對于一個未知結構的蛋白質(U),如果找到一個已知結構的遠程同源蛋白質(T),那么可以根據T的結構模板通過遠程同源模型化方法建立U的三維結構模型。UT(遠程同源)2/1/202376

一個遠程同源模型化方法要解決三個問題:(1)檢測遠程同源蛋白質(T);(2)U和T的序列必須被正確地對比排列;(3)修改一般的同源模型化過程,以應用于相似度非常低的情況,即處理更多的環區,建立合理的三維結構模型。如何解決第一個和第二個問題?基本思想是建立一個從U到已知結構T的線索,并通過一些基于環境或基于知識的勢,評價序列與結構的適應性。至于最后建立三維結構模型則是非常困難的序列→結構比對2/1/202377線索化的主要思想:利用氨基酸的結構傾向(如形成二級結構的傾向、疏水性、極性等),評價一個序列所對應的結構是否能夠適配到一個給定的結構環境中。2/1/202378建立序列到結構的線索的過程稱為線索化,線索技術又稱折疊識別技術。線索化或者折疊識別的目標是為目標蛋白質U尋找合適的蛋白質模板,這些模板蛋白質與U沒有顯著的序列相似性,但卻是遠程同源的。線索化方法一般有5個基本組成部分:(1)已知三維折疊結構的數據庫;(2)一種適合于進行序列-結構比對的三維折疊信息的表示方法;(3)一個序列-結構匹配函數,該函數對匹配程度進行打分;2/1/202379(4)建立最優線索的策略,或者是進行序列-結構比對的策略;(5)一種評價序列-結構比對顯著性的方法。假設存在有限數目的核心折疊(corefolds)核心折疊實際上是構成蛋白質空間形狀的基本模式。建立核心折疊數據庫預測----建立線索

U序列與數據庫核心折疊比對取最佳核心折疊U結構模型2/1/202380

一種基于序列與結構比對的最優線索化算法令:s1,s2,…,sn為蛋白質序列S的n個元素

C1,C2,…,Cm為數據庫中核心折疊C的m個核心區域

Cij為第i個核心區域第j個氨基酸位置每一個核心區域由若干個氨基酸殘基構成

2/1/202381設t是一個從序列到核心折疊的線索,那么t說明了序列S的哪些元素si,sj,sk,…代表核心區域C1,C2,C3,…的起始位置。這實際上是一種從序列S到核心折疊C的比對令代表核心折疊C中的環到序列S中空位的映射,顯然是通過線索化而確定的。令f(t)是進行比對的得分函數,其定義如下:

f(t)=g1(v,t)+g2(u,v,t)+g3(,t)

2/1/202382

g1(v,t)評價氨基酸殘基v所處的位置g2(u,v,t)評價殘基u和v的相對位置,如果u和v鍵合,則得分高;g3(,t)評價環區,根據環區的大小進行打分。線索化問題: 對于給定的序列S和核心折疊C,選擇一個線索t,使得f(t)的值最小,即尋找一個從S到C的最佳映射。2/1/202383使用PHYRE系統進行RGDVP2蛋白的折疊式別預測。PHYRE是英國倫敦大學帝國理工學院生物信息學小組維護的蛋白質折疊識別預測的網上服務器,該服務器提供了分別針對免費的學術用戶和收費的商業用戶兩種版本。本例使用的P2蛋白是水稻瘤矮病毒的次要外層衣殼蛋白,由于ExPDB晶體圖像數據搜索不到同源蛋白,故采用折疊識別法預測P2蛋白的三級結構。2/1/202384

3、從頭預測方法在既沒有已知結構的同源蛋白質、也沒有已知結構的遠程同源蛋白質的情況下,上述兩種蛋白質結構預測的方法都不能用,這時只能采用從頭預測方法,即(直接)僅僅根據序列本身來預測其結構。從頭預測方法一般由下列3個部分組成:(1)一種蛋白質幾何的表示方法

由于表示和處理所有原子和溶劑環境的計算開銷非常大,因此需要對蛋白質和溶劑的表示形式作近似處理。2/1/202385(2)一種勢函數及其參數

通過對已知結構的蛋白質進行統計分析確定勢函數中的各個參數(3)一種構象空間搜索技術

構象空間搜索和勢函數的建立是從頭預測方法的關鍵2/1/202386N端的氨基酸位于坐標系統的原點第二個氨基酸位于坐標的(1,0)或(1,0,0)處。H-P模型-[疏水(hydrophobic)-極性(polar)]

2/1/202387基于疏水殘基之間的接觸進行打分每一個H和H的接觸(非相鄰殘基)對能量的貢獻都為-1最優的構象就是所有可能的構象中具有最多H和H接觸的那個構象圖中的二維和三維構象的得分都是-32/1/202388絕對方向表示法:每一個位置上可選擇的方向:

上、右、左和下(U、R、L、D);而對于三維模型:

上、右、左、下、后和前(U、R、L、D、B、F)。構象空間搜索(R,R,D,L,D,L,U,L,U,U,R) (R,B,U,F,L,U,R,B,L,L,F)2/1/202389相對方向表示法:利用每個氨基酸殘基主鏈的轉動方向來表示每個位置上的殘基的方向二維網格模型:每個殘基位置上可選擇的方向有三個左、右和前(L、R和F)三維網格模型:左、右、前、上和下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論