




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
蛋白質組與蛋白質結構分析第1頁,課件共149頁,創作于2023年2月第六章
蛋白質組與蛋白質結構分析中山大學吳忠道上海交通大學魏冬青生物信息學第2頁,課件共149頁,創作于2023年2月學習提綱
重點
蛋白質的分離與鑒定方法、蛋白質芯片分析技術以及酵母雙雜交技術。蛋白質二級結構預測方法及其軟件、蛋白質三維結構預測方法及其軟件。第3頁,課件共149頁,創作于2023年2月
難點
蛋白質二級結構和三維結構算法以及軟件的使用。蛋白質功能預測方法及其軟件的使用。蛋白質與疾病發生。常用的蛋白質組學數據庫。
熟悉第4頁,課件共149頁,創作于2023年2月第一節引言Section1Introduction第5頁,課件共149頁,創作于2023年2月隨著人類基因組及諸多物種基因組計劃的完成,生命科學研究已經進入以基因組學、蛋白質組學、代謝組學等“組學”為研究標志的后基因組時代(post-genomicera)。在后基因組時代,蛋白質組學研究越來越受到關注和重視。第6頁,課件共149頁,創作于2023年2月蛋白質組(proteome):指由一個基因組(genome),或一個細胞、組織表達的所有蛋白質(protein)。蛋白質組學(proteomics):蛋白質組學是采用大規模、高通量、系統化的方法,研究某一類型細胞、組織或體液中的所有蛋白質組成、功能及其蛋白之間相互作用的學科。根據不同研究目的和手段,蛋白質組學分為表達蛋白質組學、結構蛋白質組學和功能蛋白質組學。第7頁,課件共149頁,創作于2023年2月①表達蛋白質組學:主要采用經典蛋白質組學技術如雙向凝膠電泳和圖像分析技術,開展細胞內蛋白樣品表達的定量研究;②結構蛋白質組學:以繪制出蛋白復合物結構或存在于一個特殊的細胞器中的蛋白為研究目標的蛋白質組學,主要用于建立細胞內信號轉導網絡圖譜并解釋某些特定蛋白表達對細胞產生的特定作用;第8頁,課件共149頁,創作于2023年2月③功能蛋白質組學:以細胞在某一特定時間所表達或與某個功能相關的蛋白質集合為研究對象進行研究和描述,能夠提供有關蛋白糖基化、磷酸化,蛋白信號轉導通路,疾病機制或蛋白-藥物之間相互作用的重要信息。第9頁,課件共149頁,創作于2023年2月第二節蛋白質組數據的獲取與分析Section2ProteomicsDataAcquisitionandAnalysis第10頁,課件共149頁,創作于2023年2月一、二維凝膠電泳分析技術2-DE:是將樣品進行電泳后在它的直角方向再進行一次電泳,又稱雙向電泳。第一向:等電聚焦(isoelectricfocusing,IEF),蛋白質沿pH梯度分離至各自的等電點。第二向:是十二磺酸鈉-聚丙烯酰胺凝膠電泳(SDS),蛋白質進行分子量的分離。(一)定義及特點第11頁,課件共149頁,創作于2023年2月樣品經過電荷和質量兩次分離后,可獲得樣品分子等電點(isoelectricpoint,pI)和分子量(molecularweight,MW)等信息。分離的結果不是獲得蛋白條帶,而是蛋白斑點。這是迄今分辨率最高、信息最多的蛋白電泳技術。目前使用廣泛的2-DE蛋白分離的方法為固相pH梯度-SDS雙向凝膠電泳。第12頁,課件共149頁,創作于2023年2月1.樣品制備目的是從成分復雜的細胞、組織等材料中取得純度高的完整蛋白質組分。(二)固相pH梯度-SDS雙向凝膠電泳
(IPG-DALT電泳)操作原理及技術流程第13頁,課件共149頁,創作于2023年2月2.蛋白質定量BCA法、Bradford法及UV280法等,但由于這些定量方法都基于吸光度測定,而樣品溶液中往往含有高濃度尿素等溶劑可能影響吸光度的準確測定,故推薦使用雙向電泳蛋白質定量專用試劑盒進行檢測。第14頁,課件共149頁,創作于2023年2月3.一向電泳一向電泳等電聚焦(isoelectricfocusing,IEF),是根據蛋白質pI值不同,在電場力的作用下將其分離。第15頁,課件共149頁,創作于2023年2月4.一向膠條的平衡進行第二向電泳前,需要對IPG膠條進行平衡(equilibration),平衡過程是將IPG膠條浸沒在第二向電泳所必需的SDS緩沖體系中,以便被分離蛋白質與SDS完全結合并順利轉移入二向電泳的凝膠中。平衡后應立即進行第二向電泳。第16頁,課件共149頁,創作于2023年2月5.二向電泳即十二烷基磺酸鈉-聚丙烯酰胺凝膠電泳,是根據分子量大小各異的蛋白質在電場中的泳動速率不同的原理而分離蛋白質的方法。第17頁,課件共149頁,創作于2023年2月6.凝膠檢測適用于SDS凝膠中蛋白質檢測的方法都可用于雙向電泳凝膠檢測。銀染和考馬斯亮藍(R250、G250)染色,是蛋白質組研究中最為廣泛使用的兩種染色方法。第18頁,課件共149頁,創作于2023年2月質譜(massspectrometry,MS)是按照物質的質量與電荷的比值(質荷比,mass-to-chargeratio,m/z)順序排列成的圖譜。質譜分析法是按照離子的質荷比大小對離子進行分離和測定,從而對樣品進行定性和定量分析的一種方法。二、蛋白質組質譜分析技術第19頁,課件共149頁,創作于2023年2月質譜儀(massspectrometer)是利用電磁學原理使離子按照質荷比進行分離,從而測定物質的質量與含量的科學實驗儀器。(一)質譜儀第20頁,課件共149頁,創作于2023年2月1.基質輔助激光解吸/電離(matrixassistedlaserdesorption/ionization,MALDI)利用激光脈沖將與基質結晶混合的蛋白質樣品升華并電離出來。2.電噴霧(electrpsprayionization,ESI)將分析物從溶液中電離出來,可以方便地與液相色譜(liquid-chromatography,LC)聯用。第21頁,課件共149頁,創作于2023年2月1.分子量測定2.肽譜測定生物質譜通過與特異性蛋白酶解相結合,可測定肽質量指紋圖(peptidemassfingerprint,PMF),并獲得全部肽段的準確分子量,結合蛋白質數據庫檢索就可實現蛋白質的快速鑒別和高通量篩選。(二)質譜的應用第22頁,課件共149頁,創作于2023年2月3.肽序列測定串聯質譜技術可直接用于肽段的測序,從一級質譜產生的肽段中選擇母離子進入二級質譜,經惰性氣體碰撞后,肽段沿肽鏈斷裂,由所得各肽段質量數差值推定肽段序列,并用于數據庫查尋,稱為肽序列標簽技術(peptidesequencetag,PST),目前廣泛應用于蛋白質組大規模篩選。第23頁,課件共149頁,創作于2023年2月4.巰基和二硫鍵定位利用生物質譜的準確分子量測定特性,同時結合碘乙酰胺、4-乙烯吡啶等化學試劑對蛋白質進行烷基化和還原烷基化以及蛋白質酶切、肽譜技術等,可實現對二硫鍵和自由巰基的快速定位。第24頁,課件共149頁,創作于2023年2月5.蛋白質翻譯后修飾如用MALDI-TOF-MS對雙向電泳分離蛋白質磷酸化位點進行定位、MALDI-TOF-MS結合不同酶解方式確定糖基化位點等。第25頁,課件共149頁,創作于2023年2月1.MALDI-TOF質譜測定肽質量指紋圖將質譜分析獲得的肽段分子質量與蛋白質數據庫中理論肽段的分子質量進行比較,通過軟件分析可獲得蛋白質信息,根據匹配情況判斷出所鑒定分析的蛋白質是已知的還是未知的。(三)基質輔助激光解吸電離飛行時間質譜(MALDI-TOF-MS)分析技術第26頁,課件共149頁,創作于2023年2月2.MALDI-TOF質譜技術用于蛋白質C-端序列分析在質譜儀內,應用源后衰變(post-sourcedecay,PSD)和碰撞誘導解離(collision-induceddissociation,CID)可產生包含有僅異于一個氨基酸殘基質量的一系列肽峰質譜。此外,用酶或化學方法從N-或C-末端按順序除去不同數目氨基酸,亦可形成大小不同的一系列梯形肽片段,所得的一定數目肽質量由MALDI-TOF-MS測量。第27頁,課件共149頁,創作于2023年2月1.電噴霧電離質譜測定蛋白質和多肽分子質量蛋白質和多肽分子經電噴霧電離時,會吸附一個或多個質子,形成一系列帶電荷狀態不同的分子離子,在質譜中形成荷質比不同的譜峰。一般可根據譜峰的同位素離子峰分布情況以及利用相鄰兩峰的荷質比和電荷數關系計算求得離子分子質量。(四)電噴霧質譜分析第28頁,課件共149頁,創作于2023年2月2.液相色譜-電噴霧質譜法鑒定雙向凝膠電泳蛋白質對雙向凝膠電泳分離的蛋白質點經酶解后的多肽混合物進行液相色譜-電噴霧質譜聯用(LC-ESIMS)鑒定分析,同樣可以得到PMF。第29頁,課件共149頁,創作于2023年2月串聯質譜的使用能夠對基于PMF的結果進行再分析或對未賦值的質譜峰信號進行研究。對于初始用PMF法鑒定的蛋白,可選擇其中部分肽段峰進行MS/MS分析,得到肽段的序列。(五)串聯質譜(MS/MS)第30頁,課件共149頁,創作于2023年2月三、蛋白質芯片分析技術蛋白質芯片(proteinchips)技術又稱蛋白質微陣列(proteinmicroarrays),是一種高通量的、小型化的、平行性的生物檢測技術。第31頁,課件共149頁,創作于2023年2月原理蛋白質芯片是將已知蛋白點印在固定于不同種類支持介質上,制成由高密度蛋白質或多肽分子微陣列組成的蛋白微陣列,陣列中固定分子的位置及組成已知,未經標記或標記(熒光物質、酶或化學發光物質)的生物分子與芯片上探針反應,通過掃描裝置如激光掃描系統(laserscannerbasessystem)或電荷偶聯照像系統(chargecoupleddevice-camera,CCD-camera)檢測信號強度,量化分析雜交結果,檢測蛋白質。第32頁,課件共149頁,創作于2023年2月蛋白質芯片具有以下特點①特異性強;②敏感性高;③高通量;④重復性好;⑤應用性強;⑥適用范圍廣。第33頁,課件共149頁,創作于2023年2月分類根據功能:功能研究型芯片(functionalproteinmicroarrays)和分析檢測型芯片(analyticalproteinmicroarrays)。第34頁,課件共149頁,創作于2023年2月根據蛋白質種類:抗體芯片和抗原芯片。根據芯片表面化學成分:化學表面芯片和生物表面芯片。根據點樣蛋白質活性功能:無活性芯片和有活性芯片。第35頁,課件共149頁,創作于2023年2月根據載體:普通玻璃載體芯片(plain-glassslide)、多孔凝膠覆蓋芯片(porousgelpadchip)及微孔芯片(microwellchip)等。第36頁,課件共149頁,創作于2023年2月待測樣品準備反應過程:待蛋白質芯片與被測樣品溶液在適宜溫度下孵育一定時間后用PBST洗去未反應分子,再根據不同標記物直接檢測(如熒光標記)或顯色后檢測(如酶標記)。蛋白質芯片檢測及分析第37頁,課件共149頁,創作于2023年2月芯片檢測:對于熒光標記芯片,用熒光掃描儀或激光共聚焦顯微鏡掃描,利用計算機分析各點平均熒光密度;對于酶標記芯片,顯色后可用CCD照相機拍攝,利用計算機處理信號得到各點灰度。第38頁,課件共149頁,創作于2023年2月結果分析:設計對照反應,或設定陰陽性結果閾值。排除各點熒光密度或灰度背景干擾后與閾值比較并定量分析。第39頁,課件共149頁,創作于2023年2月應用領域基因表達篩選特異性抗原抗體檢測蛋白質組學研究蛋白質相互作用研究第40頁,課件共149頁,創作于2023年2月四、酵母雙雜交系統酵母雙雜交系統(yeasttwo-hybridsystem)是一種直接于酵母細胞內檢測蛋白質-蛋白質相互作用且靈敏度很高的分子生物學方法。第41頁,課件共149頁,創作于2023年2月酵母中轉錄活化因子GAL4蛋白能激活轉錄主要因為其二個結構可分功能相互獨立的結構域,即位于氨基(N)端的DNA-BD及位于羧基(C)端的AD。根據GAL4特性,可構建兩種重組質粒載體,分別表達GAL4蛋白的DNA-BD(N端1~147個氨基酸)和AD(羧基端768~881個氨基酸)。若在DNA-BD上連接“誘餌”蛋白X基因,在AD上連接“獵物”蛋白Y基因,再將這兩個質粒共同轉入酵母體內表達。第42頁,課件共149頁,創作于2023年2月如果酵母體內表達的蛋白X和Y在酵母核內發生交互作用,可使得DNA-BD和AD在空間上接近,從而激活UAS下游啟動子調節的酵母特定報告基因的表達,使轉化子由于報告基因的表達而可以在特定的營養缺陷培養基上生長,同時因激活轉錄下游GAL1-LacZ和/或MEL1基因的表達,從而在X-β-Gal和/或X-α-Gal存在下顯藍色,可用于排除篩選假陽性克隆。這樣可根據報告基因是否轉錄表達判斷“誘餌”蛋白X與“獵物”蛋白Y之間相互作用。第43頁,課件共149頁,創作于2023年2月(二)酵母雙雜交系統特點與應用1.特點不僅可以精確測定蛋白質間微弱相互作用,且在DNA水平操作,不需要在體外進行大量表達和純化蛋白質。第44頁,課件共149頁,創作于2023年2月2.應用分析已知蛋白質間相互作用;可篩選cDNA文庫,分離與已知蛋白作用的新配體及其基因序列。發現新基因的主要途徑,是研究蛋白間交互作用最有力的工具之一。第45頁,課件共149頁,創作于2023年2月3.局限性轉化效率低;適用范圍有限;存在假陽性及假陰性;外源蛋白毒性及翻譯后修飾。第46頁,課件共149頁,創作于2023年2月五、RosettaStone方法某物種中基因C的兩個片段分別與同一物種或另一物種中基因A及基因B同源,既可認為基因A與基因B存在功能相關性,借助于基因C能找到無同源性的基因A及基因B之間關聯?;駽稱為羅塞塔石碑基因(RosettaStonegene),其表達蛋白稱為羅塞塔石碑蛋白。(一)RosettaStone方法來源第47頁,課件共149頁,創作于2023年2月根據羅塞塔石碑蛋白C可預測蛋白質A與蛋白質B之間存在相互作用。該方法理論基礎是基于功能相關蛋白常常共進化的性質。第48頁,課件共149頁,創作于2023年2月利用RosettaStone方法,檢索大腸桿菌基因組中4290種編碼蛋白基因在其他生物細胞基因組的融合情況,共發現6809對蛋白能構成RosettaStone序列,其中3950對蛋白能在SWISS-PROT數據庫檢索到注釋功能,有2682對蛋白共享至少同一個關鍵詞,說明蛋白對功能相關。應用此法檢索酵母菌基因組,發現45502對相關蛋白的基因序列。(二)RosettaStone方法的應用第49頁,課件共149頁,創作于2023年2月RosettaStone方法預測得到的蛋白互作網絡,必須進一步通過實驗分析以提高其準確性。可利用噬菌體展示技術、酵母雙雜交系統、免疫共沉淀法、X射線結晶學以及表面等離子共振技術等有效檢測蛋白質相互作用高通量實驗技術,為蛋白質組學發展奠定堅實的基礎。第50頁,課件共149頁,創作于2023年2月六、蛋白質組學分析軟件與數據庫1.蛋白質表達分布圖數據庫日內瓦大學的xPASy系統。2.蛋白質組圖譜自動識別軟件包肽圖(peptidemapping)包含一個蛋白質全部質譜(MS)信息,肽段(peptidefragment)包含蛋白質多個片段質譜信息(類似于EST)。(一)常用蛋白質組分析工具第51頁,課件共149頁,創作于2023年2月(二)蛋白質組分析軟件1.圖像分析2.微量測序(microsequencing)N-末端Edman降解技術第52頁,課件共149頁,創作于2023年2月3.質譜數據質譜鑒定主要包括數據的計算機處理和蛋白質的數據庫搜尋鑒定。質譜數據經計算機處理后,可使用三種數據庫搜尋方式“鑒定”蛋白質:①利用MS數據搜尋,即PMF法;②利用“原始”MS/MS數據搜尋法;③先對串聯質譜數據進行解析,獲得部分多肽片段氨基酸序列后對蛋白質進行序列查詢法鑒定。第53頁,課件共149頁,創作于2023年2月4.肽質譜指紋圖(PMF)與肽序列測定由于氨基酸序列不同,蛋白質酶(如胰酶)酶解后產生的酶切肽片段序列也不同,其肽混合物質量數具一定特征,稱為肽質譜指紋圖(PMF)。第54頁,課件共149頁,創作于2023年2月5.氨基酸組分利用氨基酸組分異質性,基于雙向凝膠電泳圖譜鑒定蛋白質。多種工具可用于氨基酸組分分析,如AACompIdent、ASA、FINDER、AAC-PI及PROP-SEARCH等。第55頁,課件共149頁,創作于2023年2月(三)蛋白質組數據庫1.綜合性蛋白質2DE數據庫具有數據直觀性,以蛋白質雙向電泳圖片為基礎,并整合其他數據庫中信息,如蛋白質序列、結構及功能等。數據庫包括:SWISS2D數據庫、Argonne2D數據庫、MaxPlanck感染生物學研究所(MPIB)創建的蛋白質2D數據庫等。第56頁,課件共149頁,創作于2023年2月2.哺乳類2DE數據庫丹麥Aarhus大學人類基因組研究中心的2D數據庫、英國心臟科學中心Harefield醫院維護的心臟內皮細胞HSC2D數據庫、德國柏林心臟研究所的人類心肌2D數據庫等。第57頁,課件共149頁,創作于2023年2月3.微生物類和植物類2DE數據庫微生物類2DE數據庫主要包括細菌、真菌和寄生蟲三類。植物類2DE數據庫包括:澳大利亞國立大學ANU2D、法國INRACestas的樹木2D等。第58頁,課件共149頁,創作于2023年2月(四)質譜數據庫查詢和蛋白質鑒定常用軟件1.PepSea檢索前必須先獲得肽序列標簽(PST)。在檢索較大蛋白時積分較高,隨機匹配的可能性也較大。2.SEQUEST可使用多個肽片段序列信息進行查詢,無需人工干預,但查詢相當費時。3.PeptIdent/MultiIdent基于遺傳算法。第59頁,課件共149頁,創作于2023年2月4.ProbID基于概率模型。5.MOWSE(molecularweightsearch)基于概率算法的數據庫查詢軟件。6.ProFound基于Bayesian算法,綜合考慮每個蛋白質序列詳細信息,同時考慮了酶解產生肽片段的蛋白質序列信息,大大提高算法的靈敏度和選擇性。第60頁,課件共149頁,創作于2023年2月(五)PMF質譜分析基本步驟1.核對譜圖,扣除本底等因素引起的失真,進行峰值校正,選擇分析范圍。(1)相對豐度:以質譜中最強峰為100%(稱基峰),其他碎片峰與之相比的百分數。(2)總離子流(TIC):即一次掃描得到的所有離子強度之和。第61頁,課件共149頁,創作于2023年2月(3)動態范圍:即最強峰與最弱峰高之比。(4)本底:未進樣時,掃描得到的質譜圖,空氣成分、儀器泵油、底物、緩沖液及吸附在離子源中其他樣品等所導致的背景峰。第62頁,課件共149頁,創作于2023年2月以牛血清白蛋白(bovineserumalbumin,BSA)PMF圖譜為例(圖6-1)。右上角顯示質譜分析數據。第一列表示實驗肽段質量數,第二列表示理論酶切后肽段質量數,第三列表示BSA酶切后各肽段序列。質譜圖中各肽段峰上數字表示各峰相對應的質荷比(m/z)值,(+)表示該實驗峰質荷比值與理論酶切后肽段峰質荷比值相比配。第63頁,課件共149頁,創作于2023年2月圖6-1BSA的MALDI-TOF質譜圖譜第64頁,課件共149頁,創作于2023年2月各標記肽段峰上,(+)表示BSA酶切后肽段峰,(M)表示基質峰。圖6-2BSA的MALDI-TOF質譜圖譜500~900區域放大圖第65頁,課件共149頁,創作于2023年2月2.確定肽指紋譜峰值數據集,剔除與所鑒定蛋白無關的質量峰經剔除基質峰、酶自解峰等信號,圖6-1中BSA的肽指紋質量數數據集為,721.355、927.490、1163.654、1249.633、1305.694、1439.850、1479.815、1567.733、1639.953、1871.888、2044.991。第66頁,課件共149頁,創作于2023年2月3.數據庫搜索及參數設置(1)選擇允許的化學修飾(2)確定可耐受的質量數精確度(masstolerance)(3)確定酶切所用蛋白酶(4)確定允許漏切的酶切位點個數(5)確定肽段質量數值(massvalues)及計算模式(6)根據搜索蛋白的匹配對象選擇合適的數據庫及物種(taxonomy)限定(7)確定估計等電點(pI)及分子量數值第67頁,課件共149頁,創作于2023年2月現以牛血清白蛋白(bovineserumalbumin,BSA)為例,采用MASCOT搜索工具進行PMF分析鑒定(圖6-3、圖6-4、圖6-5、圖6-6)。第68頁,課件共149頁,創作于2023年2月圖6-3MASCOT搜索主界面第69頁,課件共149頁,創作于2023年2月圖6-4選擇MASCOTPeptideMassFingerprint程序第70頁,課件共149頁,創作于2023年2月圖6-5MASCOTPMF搜索結果界面第71頁,課件共149頁,創作于2023年2月圖6-6搜索結果蛋白詳細信息第72頁,課件共149頁,創作于2023年2月第三節蛋白質結構的預測Section3PredictionofProteinStructure第73頁,課件共149頁,創作于2023年2月一、蛋白質結構預測概述1961年提出的Anfinsen原理為從氨基酸序列預測蛋白質空間結構奠定了理論基礎,即蛋白質分子的一級序列決定其空間結構,而蛋白質天然構象是能量最低的構象。Li和Scheraga等曾用隨機搜索方法確定多肽構象,但單純構象搜索對于結構和自由度復雜得多的蛋白質無能為力。第74頁,課件共149頁,創作于2023年2月目前蛋白質三維結構預測方法主要發展自兩個方向:1.物化理論分析:從頭預測2.統計學方法:同源建模,折疊識別第75頁,課件共149頁,創作于2023年2月二、蛋白質二級結構預測方法及軟件蛋白質中約85%的殘基處于三種穩定二級結構,α螺旋、β折疊和β轉角。二級結構預測的目標是根據一級結構判斷殘基是否處于特定二級結構。其基本依據是:每段相鄰的氨基酸殘基具有形成一定二級結構的傾向,通過統計和分析發現這些傾向或者規律,二級結構預測問題可轉化為模式分類和識別問題。第76頁,課件共149頁,創作于2023年2月(一)蛋白質二級結構預測方法1.DPM(雙重預測方法)先預測蛋白質的結構分類再預測序列的二級結構。2.DSC算法首先預測基本概念,然后利用簡單線性統計方法結合概念預測二級結構,其準確率較高。第77頁,課件共149頁,創作于2023年2月3.PHDsec基于神經網絡系統,被認為是二級結構預測的標準。4.SOPMA它用五種相互獨立方法預測,并匯集整理“一致預測結果”,準確率達69.5%。第78頁,課件共149頁,創作于2023年2月5.MLRC算法集GOR4、SIMPA96和SOPMA為一體,處理蛋白質二級結構預測結果,并估計分類的后驗概率。6.Jpred1998年由BartonGroup創建,運用Jnet神經網絡算法,準確率可達到76.4%。第79頁,課件共149頁,創作于2023年2月(二)蛋白質結構域識別方法目前結構域識別方法主要包括根據蛋白質空間結構信息利用機器學習方法獲取結構域信息的方法、通過對具有代表性三級結構的蛋白質建立隱馬爾可夫模型方法、分析蛋白質序列構象熵值判定結構域邊界的方法、運用神經網絡從蛋白質序列獲取結構域邊界方法和基于經驗的人工劃分方法等。第80頁,課件共149頁,創作于2023年2月(三)蛋白質二級結構預測軟件以人基質金屬蛋白酶(matrixmetalloproteinase14,MMP14,NCBI蛋白質數據庫編號NP_004986)為例,介紹Jpred、SOPMA及PredictProtein等預測軟件。第81頁,課件共149頁,創作于2023年2月1.Jpred(pbio.dundee.ac.uk/~www-jpred/)Jpred首頁及部分分析結果見圖6-7,預測得到MMP14有8個α-螺旋區(H)和21個β-折疊區(E),其他區域均為無規則卷曲區(-)。第82頁,課件共149頁,創作于2023年2月Jpred預測二級結構第83頁,課件共149頁,創作于2023年2月2.SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html)SOPMA主頁及預測結果如圖6-8所示,MMP14含有螺旋(h)27.66%、延伸鏈(e)19.24%、轉角(t)11.34%和無軌卷曲(c)41.75%。第84頁,課件共149頁,創作于2023年2月SOPMA預測二級結構第85頁,課件共149頁,創作于2023年2月3.PredictProtein(/)二級結構預測和溶劑可及性分析如圖6-9,目標蛋白序列中的Helix(紅)和Strand(藍)被RePROF(上)和PROFsec(下)兩種方法預測出來,同時溶劑可及(Exposed,藍)與不可及(Buried,黃)的殘基也被PROFacc方法計算出來。各特征殘基的比例以餅狀圖顯示。第86頁,課件共149頁,創作于2023年2月PredictProtein預測第87頁,課件共149頁,創作于2023年2月三、蛋白質三維結構預測方法及軟件目前,蛋白質三維結構預測方法有三類:①比較建模(comparativemodeling,CM)需要與目標序列的相似度較高(>30%)的已知結構模板;②當缺乏同源性較高的模板時,就需用復雜方法獲得合適的模板并產生更確切的比對,這種過程被稱為遠程同源建模(distanthomologymodeling)、折疊識別(foldrecognition)或穿線法(threading);③不直接用已知模板的方法稱為自由建模(freemodeling)或從頭預測(abinitio)法。第88頁,課件共149頁,創作于2023年2月(一)比較建模法原理比較建模又稱同源建模(homologymodeling),原理較簡單,基于進化相關的序列具有相似的三維結構且進化過程中三維結構比序列保守的原理,利用進化相關模板結構信息建模。第89頁,課件共149頁,創作于2023年2月基本步驟①將目標序列作為查詢序列來搜索PDB和SWISS-PROT等已知蛋白質結構數據庫,確定和識別一個同源模板,或選擇已知結構的同源序列作為建模的模板;②將目標序列和模板序列進行比對,利用多種比對方法或手工校正以改進和優化靶序列和模板結構的比對,比對中可以加入空格;第90頁,課件共149頁,創作于2023年2月③以模板結構骨架作為模型,建立目標蛋白質骨架模型;④構建環區(loops)和側鏈,優化側鏈位置;⑤優化和評估產生的模型,使用能量最小化或其他方法優化結構,如利用分子動力學、模擬退火等優化結構。第91頁,課件共149頁,創作于2023年2月比較建模法的局限性最大的挑戰是對模板鏈進行空隙和插入的建模。目標蛋白與模板結構保守性的程度及序列比對的正確性嚴重影響預測模型的準確性。因此,比較建模主要在序列一致性大于30%的序列間進行。第92頁,課件共149頁,創作于2023年2月(1)SWISS-MODEL服務器是目前最廣泛使用的基于網絡的免費蛋白質3D自動建模服務器。它與ExPASy網站和DeepView程序緊密相聯。常用比較建模服務器和軟件第93頁,課件共149頁,創作于2023年2月(2)MODELLER軟件需要用戶提供目標序列與其模板的比對結果,能夠自動計算由非氫原子組成的模型,并通過搜索序列數據庫、多序列比對、聚類、對高柔性環區進行從頭建模和多模型優化等方法,進一步修正模型。第94頁,課件共149頁,創作于2023年2月(3)HHpred服務器和軟件既可使用交互式服務器也可使用下載的軟件進行模板的搜索、序列比對、二級結構預測等同源建模準備,并利用MODELLER構建三維模型。第95頁,課件共149頁,創作于2023年2月(4)AccelrysDiscoveryStudio軟件是一個綜合生物大分子結構分析和計算機輔助藥物設計等多種功能的軟件。整合MODELLER用于同源建模,和后續模型評價。并可進行相關結構域和活性位點分析。第96頁,課件共149頁,創作于2023年2月(5)MOE(molecularoperatingenvironment)軟件綜合生物大分子結構分析和計算機輔助藥物設計等多種功能的商業軟件。其優勢在于可視化工具非常方便,便于對分子局部操作,對所建模型進一步局部優化和修正。第97頁,課件共149頁,創作于2023年2月(二)折疊識別法結構在進化上的保守性要高于序列。尤其在只能找到同源性小于30%的模板時比較適用。此方法包括兩步:①將目標蛋白序列和已知的折疊進行匹配,根據比對的進化信息在已知的結構中找到一個或幾個匹配最好的折疊結構,作為建模的模板。②將目標序列的:線“穿”到模板的折疊結構上,拼裝出最好的匹配模型。第98頁,課件共149頁,創作于2023年2月這種方法局限性在于已有的蛋白質折疊類型還是有限的,序列相似的蛋白也可能具有明顯不同的折疊模式等等。第99頁,課件共149頁,創作于2023年2月(三)蛋白質三維結構的從頭預測方法如果目標蛋白序列缺乏已知結構的同源蛋白質,則可采用從頭預測方法(abinitio)或稱自由建模法。從頭預測法的理論依據是Anfinsen假說,即在給定條件下蛋白質的天然結構對應其自由能最低的狀態。第100頁,課件共149頁,創作于2023年2月成功的從頭預測依賴于以下因素的有效性:①通過能量優化找到的蛋白質結構具有充分的結構可靠性和計算可控性;②符合實際的力場或其他作用力描述方法;③高效而準確的搜索構象空間重要區域的算法;④對獲得結構進行準確評估的方法。第101頁,課件共149頁,創作于2023年2月四、對結構預測結果的評價1.LiveBench(LB)實驗方法LB不斷地對各自動服務器進行能力評估,約半年評估這些預測方法一次。2.CASP和CAFASP實驗方法用于檢測現行建模方法的能力和局限、確定研發的進展并闡明問題的瓶頸,是蛋白質結構預測領域的一個重要里程碑。第102頁,課件共149頁,創作于2023年2月3.EVA實驗方法主要用于二級結構預測、接觸預測、比較蛋白質結構建模和穿線法/折疊識別。第103頁,課件共149頁,創作于2023年2月第四節蛋白質結構數據庫Section4ProteinStructureDatabases第104頁,課件共149頁,創作于2023年2月PDB:包含了通過X射線單晶衍射、磁共振和電子衍射等實驗手段確定的蛋白質、多糖和核酸等生物大分子的三維結構數據。截止到2014年9月16日,PDB總共收錄了103354條結構數據,其中,收錄包括95633個蛋白質結構、2726個核酸結構、4969個蛋白/核酸復合物和26個其他結構。一、蛋白質三維結構數據庫(PDB)第105頁,課件共149頁,創作于2023年2月PDB數據庫網站主頁如圖6-10,在新一代的交互式界面的支持下,其大多數頁面可由用戶自行定義不同的顯示面板。第106頁,課件共149頁,創作于2023年2月圖6-10PDB數據庫及其快速增長的數據量第107頁,課件共149頁,創作于2023年2月PDB數據庫以文本文件的方式存放數據,每個分子各用一個獨立的文件,都有唯一的PDB-ID。它包含4個字符,由大寫字母和數字組成(如血紅蛋白的PDB-ID為4HHB)。文件中除了原子坐標外,還包括物種來源、化合物名稱、結構以及有關文獻等基本注釋信息。此外,還給出分辨率、結構因子、溫度系數、蛋白質主鏈數目、配體分子式、金屬離子、二級結構信息、二硫鍵位置等和結構有關的數據。第108頁,課件共149頁,創作于2023年2月PDB格式的文件可以用于一些圖形軟件直觀觀察蛋白質的三維結構,例如VMD、Jmol、Swiss-PDBviewer及RasMol等。第109頁,課件共149頁,創作于2023年2月PDB數據庫允許用戶用各種關鍵字進行檢索,如功能類別、PDB代碼、名稱、作者、空間群、分辨率、來源、入庫時間、分子式、參考文獻和生物來源等項。用戶不僅可以得到生物大分子的各種注釋、原子空間坐標和三維圖形,并能鏈接到一系列與PDB相關的數據庫,包括SCOP、CATH、Medline、ENZYME和SWISS-3DIMAGE等。除了使用關鍵字搜索,用戶也可以按照分類查看PDB數據庫。第110頁,課件共149頁,創作于2023年2月二、蛋白質結構分類數據庫(一)SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)蛋白質結構分類數據庫SCOP,是對已知蛋白質結構進行分類的數據庫,根據不同蛋白質的氨基酸組成及三級結構的相似性,描述已知結構蛋白的功能及進化關系。SCOP數據庫的構建除了使用計算機程序外,主要依賴于人工驗證。第111頁,課件共149頁,創作于2023年2月SCOP提供一個非冗余的ASTRAIL序列庫,通常被用來評估各種序列比對算法;一個PDB-ISL中介序列庫,用于比對搜索與未知結構序列遠源的已知結構序列;還可以鏈接到PDB等外部數據庫來檢索更多信息。第112頁,課件共149頁,創作于2023年2月在SCOP數據庫中對蛋白質的分類基于樹狀層級,從根到葉依次為類(class)、折疊類型(fold)、超家族(superfamily)、家族(family)、蛋白質結構域(proteindomain)、來源物種(species)、單個PDB蛋白質結構記錄。家族用來描述相近的蛋白質進化關系。超家族用來描述遠源的進化關系,如果序列相似性較低,但其結構和功能特性表明有共同的進化起源,則將其視作超家族。第113頁,課件共149頁,創作于2023年2月折疊類型用來描述空間的幾何關系,無論有無共同的進化起源,只要二級結構單元具有相同的排列和拓撲結構,即歸入相同的折疊方式。頂級的種類class則依據二級結構組成分為:全螺旋,全折疊,螺旋和折疊,螺旋+折疊以及其他特殊種類。這樣的樹狀層次,便于對目標蛋白的結構功能特征進行定位。第114頁,課件共149頁,創作于2023年2月(二)CATH(/)四種分類層次:蛋白質的種類(class,C)、二級結構的構架(architecture,A)、拓撲結構(topology,T)和蛋白質同源超家族(homologoussuperfamily,H)。第115頁,課件共149頁,創作于2023年2月CATH的蛋白質種類為全α、全β、α-β(α/β型和α+β型)和低二級結構四類,其中低二級結構類是指二級結構成分含量很低的蛋白質分子。第二個層次是蛋白質分子的構架,主要考慮α螺旋和β折疊形成超二級結構的排列方式,而不考慮其連接關系。這一層次的分類主要依靠人工方法。第116頁,課件共149頁,創作于2023年2月第三個層次為拓撲結構,即二級結構的形狀和二級結構間的聯系,與SCOP中的折疊模式fold相當。第四個層次為結構的同源性,是先通過序列比對再用結構比較來確定的。第117頁,課件共149頁,創作于2023年2月CATH的主頁、分類層級和代表性類別第118頁,課件共149頁,創作于2023年2月三、其他常用蛋白質結構數據庫1.SWISS-MODEL數據庫(/)收錄的蛋白質結構都是使用SWISS-MODEL對蛋白質序列進行自動同源建模所得到的結構數據。直接從PDB中獲得最新的實測三維結構,存于其模板數據庫(SMTL)。可提供蛋白質四級結構和必要的配體和輔助因子的注釋,以方便構建完整的結構模型,包括寡聚體結構。第119頁,課件共149頁,創作于2023年2月新版的SWISS-MODEL允許用戶以交互方式搜索模板,根據序列相似性對其聚類,從結構上比較不同模板,最后選擇適當的模板用于建立模型,并且還允許用戶對數據庫中的模型質量進行評價。第120頁,課件共149頁,創作于2023年2月2.生物磁共振數據庫(BMRB,/)由美國威斯康星大學麥迪遜分校組織構建的專門用于存放蛋白質、多肽、核酸等物質磁共振NMR波譜數據,以及對應的分子研究的源數據、研究所使用的實驗條件和設備、與研究相關的重要出版物等信息。第121頁,課件共149頁,創作于2023年2月第五節蛋白質功能分析Section5AnalysisofProteinFunction第122頁,課件共149頁,創作于2023年2月一、蛋白質功能分析概述蛋白質在進化中保守的結構通常對應某些保守的生物化學功能。對蛋白質功能進行分類和預測的方法主要還是依賴于結構比對,如DaliLite、SSM、STRUCTAL、MultiProt和3DCoffee等。還有一些方法試圖將結構相似性方法與其他方法相結合進行功能預測。例如,考慮一個系統發育上下文中的結構相似性,會增加功能注釋精確性。(一)基于結構分類的蛋白質功能預測第123頁,課件共149頁,創作于2023年2月(二)基于結構預測蛋白質間相互作用1.基于結構的物理對接主要用于預測兩個蛋白質間的相互作用位點,但對體積很大的蛋白質分子,相互作用的可能界面太多而計算工作量很大。第124頁,課件共149頁,創作于2023年2月2.基于相互作用界面序列特征模式的預測利用統計分析發掘蛋白質相互作用界面的序列特征信息。主要分為幾類:(1)關聯性突變法不需要目標蛋白的高級結構而只需要序列信息,且計算量比基于結構的物理對接小得多。(2)聯用方法聯用高級結構和序列信息。第125頁,課件共149頁,創作于2023年2月(3)人工神經網絡學習法利用高級結構信息和序列特征進行訓練,可建立蛋白質間相互作用界面的預測方法。預測準確度可達到70%。第126頁,課件共149頁,創作于2023年2月二、蛋白質功能預測方法(一)基于基序的方法基于基序的方法(motif-basedapproaches)通過識別功能相關的蛋白質中保守的三維基序,并建立這些保守的基序和保守的蛋白質功能間的映射關系用于預測目標蛋白質的某些生物化學功能。第127頁,課件共149頁,創作于2023年2月1.SITE程序和數據庫儲存了酶活性位點保守基序信息用位點匹配程序尋找關鍵的功能位點殘基作為保守殘基。2.TESS程序采用了幾何散列算法,通過模板研究和重疊,從蛋白質的高級結構中尋找保守的必須殘基。第128頁,課件共149頁,創作于2023年2月3.模糊功能形態(FFF)從三維信息角度認證與生物學功能相關位點的保守性。4.SPASM同時用主鏈α碳原子和側鏈基團作為分析對象,并列尋找保守殘基,并用于搜尋結構數據庫中能匹配的已知功能蛋白。第129頁,課件共149頁,創作于2023年2月5.分子識別策略分析是基于已知功能域四周原子的疊合認證保守性預測蛋白質功能。6.蛋白質側鏈的保守模式分析分析重復出現的氨基酸側鏈的保守性。第130頁,課件共149頁,創作于2023年2月(二)基于表面的方法基于表面的方法(surface-basedapproaches)對給定蛋白質進行表面模型化,利用與結構相關聯的蛋白質表面模型,識別蛋白質表面上的結構特征(如空間特征、裂隙等),進而利用這些特征來推斷蛋白質功能。SURFACE數據庫提供對輸入蛋白質局部表面特征模式的識別,以據此對蛋白質功能進行預測。這種匹配算法精確性一般能達到90%左右,但計算量很大。第131頁,課件共149頁,創作于2023年2月(三)基于學習的方法基于學習的方法(learning-basedapproaches)是利用有效的分類方法,從最相關的結構特征中識別最合適的功能類別,如SVM和KNN等分類方法?;趯W習的方法以蛋白質結構特征作為分類依據,功能分類作為樣本標簽,通過數據對象之間的相似性矩陣對訓練集中的蛋白質進行結構與功能關系的評估。第132頁,課件共149頁,創作于2023年2月三、蛋白質結構與功能關系數據庫(一)Pfam蛋白質結構域家族數據庫Pfam收集了大量使用多重序列比對和隱馬爾科夫模型對UniProtKB的蛋白質序列數據進行結構域歸類形成的蛋白質家族,廣泛用于通過序列比對推測蛋白質的結構域排布形式及功能。第133頁,課件共149頁,創作于2023年2月Pfam包括高質量、手工確定的Pfam-A,和用ADDA算法自動分類的低質量、未注釋的Pfam-B數據庫。Pfam數據庫可使用蛋白質或DNA序列搜索蛋白所屬家族,查看該家族的功能注釋和多序列比對,擴展至屬于同一群落的多個家族,查看一個目標序列的結構域組成,鏈接到該序列在PDB數據庫中的結構,或直接使用關鍵字搜索。第13
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年生物樣本保管員聘用合同正本
- 2025版叉車維修、檢測與設備升級服務承包合同匯編
- 2025版變壓器生產設備租賃合同范本
- 二零二五版現代農業技術研發與應用合同
- 二零二五年辦公室裝修工程全面施工及售后保障合同
- 二零二五年度全新車型車輛買賣合同范本
- 二零二五年度餐飲行業食品安全責任合同
- 2025版智能家居系統安裝與維護勞務合同范本
- 2025版賓館綜合設施抵押權轉讓合同模板
- 2025版辦公室租賃合同含物業管理服務
- 2024-2025學年度部編版二年級語文下學期期末試卷 (含答案)
- 勞務施工組織與管理方案
- 20以內的加法口算練習題5000題每頁100題339
- 2025新人教版英語八上單詞默寫表(先鳥版)
- 海上沉樁施工技術規程及保障措施
- 2024年河南省方城縣事業單位公開招聘教師崗筆試題帶答案
- 五年級語文閱讀理解《散文》25篇專項練習(含答案)
- 藥店如何做好患者管理
- 食品車間員工培訓
- 晚期食管鱗癌患者腸道菌群多樣性及代謝功能與ICI免疫治療的相關性
- 患者隱私保護培訓課件
評論
0/150
提交評論