生物信息學的應用課件_第1頁
生物信息學的應用課件_第2頁
生物信息學的應用課件_第3頁
生物信息學的應用課件_第4頁
生物信息學的應用課件_第5頁
已閱讀5頁,還剩277頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

生物信息學的應用

1精選ppt

生物信息學的應用

1精選ppt生物信息學(Bioinformatics)生物分子數據計算機計算+2精選ppt生物信息學(Bioinformatics)生物分子計算機+概念(廣義)生物體系和過程中信息的存貯、傳遞和表達細胞、組織、器官的生理、病理藥理過程的中各種生物信息信息科學生命科學中的信息科學

3精選ppt概念(廣義)生物體系和過程中信息細胞、組織、器官的生理、病理概念(狹義)生物分子數據深層次生物學知識分子生物信息學MolecularBioinformatics挖掘獲取生物分子信息的獲取、存貯、分析和利用4精選ppt概念(狹義)生物深層次分子生物信息學挖掘獲取生物分子信息的獲生物信息學主要研究兩種信息載體DNA分子蛋白質分子5精選ppt5精選ppt生物分子至少攜帶著三種信息遺傳信息與功能相關的結構信息進化信息6精選ppt生物分子至少攜帶著三種信息6精選ppt

第一節生物信息學與基因組學一、生物信息學概述(一)生物信息學發展簡史生物信息學發展的3個階段:前基因組時代基因組時代后基因組時代生物信息學的發展脈絡:

1956年,在美國田納西州蓋特林堡(Gatlinburg)召開的首次“生物學中的信息理論研討會”上,孕育了生物信息學的概念.1987年,佛羅里達州立大學32歲的林華安(Wa.A.Lim)博士首創“Bioinformatics”一詞,被譽為“世界生物信息之父”。7精選ppt

第一節生物信息學與基因組學一、生物信息學概述1987年1990年,林華安博士發起第一屆國際Bioinformatics學術會議。1990年10月,被譽為生命科學“阿波羅登月計劃”的國際人類基因組計劃(HGP)啟動。1995年,美國人類基因組計劃第一個五年總結報告中給出生物信息學一個較為完整的定義。2000年6月26日,美、英、日、德、法、中等六國科學家共同努力,完成人類基因組工作草圖,這是人類科學史上又一個里程碑式的事件。

2003年4月14日,國際人類基因組測序組隆重宣布:美、英、日、德、法和中國科學家歷經13年共同努力,人類基因組序列圖(“完成圖”)提前繪制成功。人類邁入“后基因組時代”(Post-genomicEra)。8精選ppt1990年,林華安博士發起第一屆國際Bioinfor(二)生物信息學的主要研究內容1.生物信息的收集、存儲、管理與提供2.基因組序列信息的提取和分析3.功能基因組相關信息分析4.基因表達數據的分析與處理5.蛋白質結構預測9精選ppt(二)生物信息學的主要研究內容1.生物信息的收集、存儲、管理基因組數據庫

蛋白質序列數據庫

蛋白質結構數據庫

DDBJEMBLGenBankSWISS-PROTPDBPIR1、生物分子數據的收集與管理10精選ppt基因組蛋白質蛋白質DDBJEMBLGenBankSWISS-2、數據庫搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列序列比較的一個基本操作就是比對(Alignment),即將兩個序列的各個字符(代表核苷酸或者氨基酸殘基)按照對應等同或者置換關系進行對比排列,其結果是兩個序列共有的排列順序,這是序列相似程度的一種定性描述多重序列比對研究的是多個序列的共性。序列的多重比對可用來搜索基因組序列的功能區域,也可用于研究一組蛋白質之間的進化關系。11精選ppt2、數據庫搜索及序列比較搜索同源序列在一定程度上就是通過發現同源分子12精選ppt發現同源分子12精選ppt3、基因組序列分析遺傳語言分析——天書基因組結構分析基因識別基因功能注釋基因調控信息分析基因組比較13精選ppt3、基因組序列分析遺傳語言分析——天書13精選ppt4、基因表達數據的分析與處理基因表達數據分析是目前生物信息學研究的熱點和重點目前對基因表達數據的處理主要是進行聚類分析,將表達模式相似的基因聚為一類,在此基礎上尋找相關基因,分析基因的功能

14精選ppt4、基因表達數據的分析與處理基因表達數據分析是目前生物信息學基因芯片15精選ppt基因芯片15精選ppt二維電泳圖16精選ppt二維電泳圖16精選ppt5、蛋白質結構預測蛋白質的生物功能由蛋白質的結構所決定,蛋白質結構預測成為了解蛋白質功能的重要途徑蛋白質結構預測分為:二級結構預測空間結構預測蛋白質折疊17精選ppt5、蛋白質結構預測蛋白質的生物功能由蛋白質的結構所決定,二級結構預測在一定程度上二級結構的預測可以歸結為模式識別問題

在二級結構預測方面主要方法有:立體化學方法圖論方法統計方法最鄰近決策方法基于規則的專家系統方法分子動力學方法人工神經網絡方法預測準確率超過70%的第一個軟件是基于神經網絡的PHD系統18精選ppt二級結構預測18精選ppt空間結構預測在空間結構預測方面,比較成功的理論方法是同源模型法該方法的依據是:相似序列的蛋白質傾向于折疊成相似的三維空間結構運用同源模型方法可以完成所有蛋白質10-30%的空間結構預測工作19精選ppt空間結構預測在空間結構預測方面,比較成功的理論方法是同源模型(三)生物信息學研究現狀與展望

1.國外生物信息學研究現狀2.我國生物信息學研究現狀3.我國生物信息學研究目標

實現基因組數據、蛋白質組和結構基因組數據、天然及合成化合物數據的計算機處理、分析和可視化,以及生物實驗和生物分子的模擬設計,解析蛋白質三維結構和蛋白質組的時空表達關系等20精選ppt(三)生物信息學研究現狀與展望1.國外生物信息學研究現狀2蛋白質研究為生物信息學提供了極為豐富的研究數據,極大地推動了生物信息學的發展。生物信息學在蛋白質的序列分析、結構預測、功能預測、分子設計等方面具有重要應用。二、生物信息學與蛋白質

21精選ppt二、生物信息學與蛋白質

21精選ppt

序列比對是生物信息學的基礎,通過比較兩個或多個蛋白質序列的相似區域和保守性位點,確定相互間具有共同功能的序列模式和分子進化關系,進一步分析其結構和功能。把未知結構的蛋白質序列與已知具有三維結構的蛋白質序列進行序列比對,有助于進一步了解該未知結構蛋白質的空間折疊信息(一)蛋白質序列分析22精選ppt

序列比對是生物信息學的基礎,通過比較兩個或多個蛋白質序列的(二)蛋白質結構預測

蛋白質結構預測內容二級結構預測三維結構預測蛋白質結構預測方法

理論分析方法:是在理論計算的基礎上進行結構預測。統計分析方法:是在對已知結構的蛋白質進行統計分析的基礎上,建立由序列到結構的映射模型,對未知結構的蛋白質直接從氨基酸序列預測其結構。23精選ppt(二)蛋白質結構預測

蛋白質結構預測內容23精選ppt

是否未知蛋白序列與已知功能的蛋白質相似確定跨膜螺旋、卷曲螺旋和前導序列未知序列是否包含保守序列模體查對PROSITE數據庫庫查對BLOCKS和PRINTS數據庫整理所有肯定的結果并核對一致性預測蛋白質功能蛋白質功能預測流程圖(三)蛋白質功能預測(引自HPDB蛋白質數據庫(/prediction/subprediction/functionalflowchat.asp)24精選ppt

是否未知蛋白序列與已知功能的蛋白質相似確定跨膜螺旋、卷曲螺(四)蛋白質分子設計蛋白質分子設計類型:按照被改造部位的多少可以分為“小改”、“中改”和“大改”三種。

“小改”:即通過對目標蛋白質進行定位突變或化學修飾改變其結構和功能。“中改”:即通過對來源于不同蛋白質的結構域進行拼接和組裝,從而較大程度的改變其結構和功能。“大改”:即完全從頭設計出一種具有特異結構與功能的全新蛋白質。25精選ppt(四)蛋白質分子設計蛋白質分子設計類型:按照被改造部位的多少常用的數據庫有:核酸序列數據庫(NucleotideSequenceDatabases)RNA序列數據庫(RNAsequencedatabases)蛋白質序列數據庫(Proteinsequencedatabases)結構數據庫(StructureDatabases)基因組數據庫(GenomicsDatabases(non-vertebrate))代謝酶相關產物(MetabolicandSignalingPathways)人類和其他脊椎動物基因組(HumanandotherVertebrateGenomes)人類基因和疾病(HumanGenesandDiseases)芯片和其他基因表達數據庫(MicroarrayDataandotherGeneExpressionDatabases);蛋白組資源(ProteomicsResources);其他分子生物學數據庫(OtherMolecularBiologyDatabases)細胞器官數據庫(Organelledatabases);植物數據庫(Plantdatabases);免疫學數據庫(Immunologicaldatabases)第二節常用數據庫26精選ppt常用的數據庫有:第二節常用數據庫26精選ppt生物信息學數據庫類型一次數據庫:數據直接來源于實驗獲得的原始數據,僅對原始數據進行簡單的歸類整理和注釋。如Genbank、EMBL和DDBJ等核酸序列數據庫;SWISS-PROT、PIR等蛋白質序列數據庫;PDB等蛋白質結構數據庫。二次數據庫:針對不同的研究內容和需要在一次數據庫、實驗數據和理論分析的基礎上對相關生物學知識和信息進行進一步分析和整理。如人類基因組圖譜庫GDB、轉錄因子和結合位點庫TRANSFAC、蛋白質結構家族分類庫SCOP等。27精選ppt生物信息學數據庫類型27精選ppt圖6-2生物信息學數據庫相互關系生物信息學數據庫相互關系28精選ppt圖6-2生物信息學數據庫相互關系生物信息學數據庫常用數據庫類型名稱網址核酸序列一次數據庫Genebank/Genbank/EMBLhttp://www.ebi.ac.uk/embl/DDBJhttp://www.ddbj.nig.ac.jp/Welcome.html.ja/基因組一次數據庫GDB/蛋白質序列一次數據庫SWISS-PROT/sprot/PIR/TrEMBLhttp://www.ebi.ac.uk/trembl/UniProt/index.shtml/MIPShttp://mips.gsf.de/GenPept/pub/genpept/NRL-3D/general/software/packages/nrl_3d/nrl_3d.html/復合數據庫NRDBhttp://www.nrdb.co.uk/OWLhttp://www.bioinf.manchester.ac.uk/dbbrowser/OWL/SWISS-PROT+TrEMBLhttp://www.ebi.ac.uk/clustr/

二次數據庫PROSITE/prosite/PRINTShttp://www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKS/Pfamhttp://pfam.sanger.ac.uk/IDENTIFY/identify/COGs/COG/ProDomhttp://www.toulouse.inra.fr/prodom.html/29精選ppt常用數據庫類型名稱網結構一次數據庫PDB/pdb/home/home.doMMDB/Structure/MMDB/mmdb.shtml/

二次數據庫DSSPhttp://www.sander.embl-heidelberg.de/dssp/HSSPhttp://www.sander.embl-heidelberg.de/hssp/FSSPhttp://www.ebi.ac.uk/dali/fssp/PSdb/~geigel/PSdb/PSdb.html/

結構分類SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/CATH/latest/index.html/PDBsumhttp://www.ebi.ac.uk/thornton-srv/databases/pdbsum/分類二次數據庫ProtoMap蛋白質組

蛋白質組

氨基酸索引AAindexhttp://www.genome.ad.jp/dbget/蛋白質間功能關系Predictome/蛋白質組分析ProteomeAnalysishttp://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二維凝膠電泳GELBANK/SWISS-2DPAGE/ch2d/酵母蛋白質定位YPL.dbhttp://ypl.tugraz.at/模式生物蛋白質組BioknowledgeLibrnary/pages/index.php?id=home/30精選ppt結構一次數據庫PDB

一、核酸數據庫

(一)核酸序列數據庫目前,國際上主要有Genbank、EMBL、DDBJ三大核酸序列數據庫,三大核酸數據庫之間每天相互交換數據,保持數據同步更新。31精選ppt

一、核酸數據庫

(一)核酸序列數據庫31精選ppt1.Genbank

Genbank由美國國立生物技術信息中心(NCBI)建立維護,其主頁如圖6-3所示。32精選ppt1.Genbank

Genbank由美國國立生物技術信息中Genbank數據直接來源測序工作者提交的序列、測序中心提交的大量EST序列、其它測序數據以及與其它數據機構協作交換的數據。Genbank內容所有已知的核酸序列和蛋白質序列,還包括對序列的簡要描述、科學命名、物種分類名稱、參考文獻、序列特征表等輔助信息。Genbank對數據記錄的處理劃分為細菌類、病毒類、靈長類、嚙齒類,EST數據、基因組測序數據、大規模基因組序列數據等16類。33精選pptGenbank數據直接來源33精選ppt(1)Genbank數據檢索

通過NCBI首頁“Search”選項中的“gene”或“Nucleotide”等選項,在檢索窗口輸入檢索詞進行直接檢索;利用NCBI網站的綜合生物信息數據庫檢索系統Entrez提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能進行精細檢索圖6-4NCBI-Entrzgene檢索界面34精選ppt(1)Genbank數據檢索

通過NCBI首頁“Searc35精選ppt35精選pptEntrez綜合生物信息數據庫檢索系統將核酸序列、蛋白質序列、基因圖譜、蛋白質結構等數據庫整合在一起。而且可以通過其生物醫學文獻摘要數據庫(MEDLINE),獲取序列相關的文獻信息。可以利用Entrezcross-database數據庫進行綜合信息檢索(圖6-5)。圖6-5NCBI-Entrezcross-database檢索界面36精選pptEntrez綜合生物信息數據庫檢索系統將美國國家生物技術信息中心(NCBI)EntrezEntrez,TheLifeSciencesSearchEngine37精選ppt美國國家生物技術信息中心(NCBI)EntrezEntrPubMed:

biomedicalliteraturecitationsandabstracts

是一個醫學文獻網絡搜索界面

BLAST(BasicLocalAlignmentsearchTool)

是DNA或氨基酸序列比對分析的重要軟件38精選pptPubMed:biomedicalliterature

OMIM:

onlineMendelianInheritanceinMan人類孟德爾遺傳數據庫在線

Books:

onlinebooks39精選ppt

OMIM:onlineMendelianInher

TaxBrowser:Taxonomybrowser分類瀏覽器Structure:該目錄下最重要的資源是分子模型數據庫MMDB及Cn3D生物大分子三維模型查看軟件

40精選pptTaxBrowser:TaxonomybrowserStEMBL和GenBank數據庫識別標志EMBL識別標志GenBank識別標志含義IDLOCUS標識字符串及短描述字XX為閱讀清晰而加的空行ACACCESSION唯一的提取號SVVERSION序列版本號DTDATE建立日期DEDEFINITION簡單的描述KWKEYWORDS關鍵字OSSOURCE來源生物體OCORGANISM生物體分類譜系RNREFERENCE引文編號RCREMARK引文注釋RP其他注釋RXMEDLINEMEDLINE引文代碼41精選pptEMBL和GenBank數據庫識別標志GenBank識別標志RAAUTHORS引文作者RTTITLE引文題目RLJOURNAL引文出處CCCOMMENT評注DR相關數據庫交叉引用號FHFEATURES特性表頭FT特征表SQEMBL序列開始,后跟長度、字母數BASECOUNTGeneBank堿基數ORIGINGeneBank序列開始標志,為空行////序列結束標志42精選pptRAAUTHORS引文作者RTTITLE引文題目RLJOURGenBank核酸數據庫實例

以人畜共患的病源菌鼠傷寒沙門氏菌(Salmonellatyphimurium)H1相抗原基因H-1-i為例,簡要說明GenBank核酸數據庫的數據格式。LOCUSSTYFLGH1I1485bpDNAlinearBCT26-APR-1993DEFINITIONSalmonellatyphimuriumH-1-igeneencodingphase1flagellarfilamentprotein(flagellin),completecds.ACCESSIONM11332VERSIONM11332.1GI:153978KEYWORDSflagellin.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(bases1to1485)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

Salmonella

typhimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134序列標識簡單描述序列編號版本號關鍵詞物種來源物種分類引文編號引文作者引文標題引文出處43精選pptGenBank核酸數據庫實例以人畜COMMENTOriginalsourcetext:S.typhimuriumSL877DNA.Draftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.Bothendsoftheflagellingeneactintheregulationofflagellinsynthesis.FEATURESLocation/Qualifierssource1..1485/organism="Salmonella

typhimurium"/mol_type="genomicDNA"/db_xref="taxon:602"CDS13..1485/note="phase-1flagellarfilamentprotein"/codon_start=1/transl_table=11/protein_id="AAA27072.1"/db_xref="GI:153979"評注特征表編碼區44精選pptCOMMENTOriginalsourcete/translation="MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVNGQTQFSGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDEKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAAVTPATVTTATALSGKMYSANPDSDIAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQDKDGSISIDTTKYTADNGTSKTALNKLGGADGKTEVVTIDGKTYNASKAAGHDFKAEPELAEQAAKTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLSSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR"ORIGIN98bpupstreamofTaqIsite.1aaggaaaagatcatggcacaagtcattaatacaaacagcctgtcgctgttgacccagaat61aacctgaacaaatcccagtccgctctgggcaccgctatcgagcgtctgtcttccggtctg121cgtatcaacagcgcgaaagacgatgcggcaggtcaggcgattgctaaccgttttaccgcg181aacatcaaaggtctgactcaggcttcccgtaacgctaacgacggtatctccattgcgcag241accactgaaggcgcgctgaacgaaatcaacaacaacctgcagcgtgtgcgtgaactggcg301gttcagtctgctaacagcaccaactcccagtctgacctcgactccatccaggctgaaatc蛋白序列基因序列45精選ppt/translation="MAQVINTNSLSL361acccagcgtctgaacgaaatcgaccgtgtaaatggccagactcagttcagcggcgtgaaa421gtcctggcgcaggacaacaccctgaccatccaggttggtgccaacgacggtgaaactatc481gatatcgatctgaagcagatcaactctcagaccctgggtctggatacgctgaatgtgcaa541caaaaatataaggtcagcgatacggctgcaactgttacaggatatgccgatactacgatt601gctttagacaatagtacttttaaagcctcggctactggtcttggtggtactgacgagaaa661attgatggcgatttaaaatttgatgatacgactggaaaatattacgccaaagttaccgtt721acggggggaactggtaaagatggctattatgaagtttccgttgataagacgaacggtgag781gtgactcttgctgcggtcactcccgctacagtgactactgcgacagcactgagtggaaaa841atgtacagtgcaaatcctgattctgacatagctaaagccgcattgacagcagcaggtgtt901accggcacagcatctgttgttaagatgtcttatactgataataacggtaaaactattgat961ggtggtttagcagttaaggtaggcgatgattactattctgcaactcaagataaagatggt1021tccataagtattgatactacgaaatacactgcagataacggtacatccaaaactgcacta1081aacaaactgggtggcgcagacggcaaaaccgaagtcgttactatcgacggtaaaacctac1141aatgccagcaaagccgctggtcatgatttcaaagcagaaccagagctggcggaacaagcc1201gctaaaaccaccgaaaacccgctgcagaaaattgatgctgctttggcacaggttgacacg1261ttacgttctgacctgggtgcggtacagaaccgtttcaactccgctattaccaacctgggc1321aacaccgtaaacaacctgtcttctgcccgtagccgtatcgaagattccgactacgcgacc1381gaagtctccaacatgtctcgcgcgcagattctgcagcaggccggtacctccgttctggcg1441caggcgaaccaggttccgcaaaacgtcctctctttactgcgttaa//

記錄結束46精選ppt361acccagcgtctgaacgaaatcgac

少量序列利用BankIt提交,大量序列利用Sequin程序進行提交。NCBI網站提供數據查詢、序列相似性搜索等服務,從其FTP服務器上可免費下載Genbank數據。NCBI網址:/BankIt網址:/BankIt/Sequin網址:/Sequin/Genebank網址:/Genbank/Entrezgene網址:/sites/entrez?db=geneEntrezcross-database網址:/sites/gquery/(2)向Genbank提交序列數據47精選ppt

少量序列利用BankIt提交,大量序列利用Sequin程EMBL核酸序列數據庫創建于1982年,由歐洲生物信息學研究所(EBI)管理維護。使用序列提取系統(SRS)進行查詢檢索,利用基于網絡的WEBIN工具,或利用Sequin軟件向EMBL核酸序列數據庫提交序列。

EMBL網址:http://www.ebi.ac.uk/embl/SRS的網址:http://srs.ebi.ac.uk/WEBIN網址:http://www.ebi.ac.uk/webin-align/webinalign_help.html/Sequin網址:http://www.ebi.ac.uk/Sequin/2.EMBL核酸序列數據庫

48精選pptEMBL核酸序列數據庫創建于1982年,由歐洲生物信息學研究DDBJ核酸序列數據庫創建于1986年,由日本國家遺傳學研究所負責維護和管理。使用SRS工具進行數據檢索和序列分析,利用Sequin軟件向該數據庫提交序列。為方便檢索DDBJ主頁可進行日文和英文互換。DDBJ的日文版網址:http://www.ddbj.nig.ac.jp/index-j.html/DDBJ的英文版網址:http://www.ddbj.nig.ac.jp/index-e.html/3.DDBJ數據庫49精選pptDDBJ核酸序列數據庫創建于1986年,由日本國家遺傳學研究

(二)基因組數據庫GDB

基因組數據庫(GDB)創建于1990年,是一個專門匯集人類基因組數據的數據庫,以對象模型來保存數據,提供基于網絡的數據對象檢索服務,可搜索各種類型的對象,并以圖形方式觀看基因組圖譜。GDB的網址是:/50精選ppt

(二)基因組數據庫GDB

基因組數據庫(GDB)創建于19(一)蛋白質序列數據庫常用的蛋白質序列數據庫有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。

1.SWISS-PROTSWISS-PROT數據庫提供蛋白質序列查詢及相似蛋白質序列搜索等服務。

二、蛋白質數據庫51精選ppt(一)蛋白質序列數據庫二、蛋白質數據庫51精選ppt圖6-6Swiss-Prot數據庫網站主頁52精選ppt圖6-6Swiss-Prot數據庫網站主頁52精選pptSWISS-PROT數據庫內容

核心數據:包括蛋白質序列、引用文獻、分類信息等。注釋:包括結構域、功能位點、跨膜區域、二硫鍵位置、翻譯后修飾、與其它蛋白質的相似性等。SWISS-PROT將廣泛收集的相關數據進行合并,且與蛋白質三維結構數據庫(PDB)等其他數據庫交互索引。通過SWISS-PROT數據庫可以得到某蛋白質的序列,再通過交互引用從PDB數據庫得到其結構。SWISS-PROT數據由數據行排列組成,數據格式與EMBL數據庫數據格式基本相同(見表6-3)。53精選pptSWISS-PROT數據庫內容53精選ppt表6-3SWISS-PORT數據庫的行識別標志及含義中止符號Terminationline//序列標頭SequenceheaderSQ特征表FeaturetabledataFT關鍵詞KeywordsKW交叉引用數據庫Databasecross-referenceDR評注或注釋CommentsornotesCC引文出處ReferencelocationRL引文標題ReferencetileRT引文作者ReferenceauthorsRA交叉引用Cross-referenceRX相關內容ReferencecommentsRC引文位置ReferencepositionRP引文序號ReferencenumberRN物種分類OrganismclassificationOC來源細胞器OrganelleOG來源物種OrganismspeciesOS基因名稱Genename(s)GN描述DescriptionDE登錄日期或最后更新日期DateDT序列編號AccessionNumberAC標識號IdentificationID含義全稱縮寫54精選ppt表6-3SWISS-PORT數據庫的行識別標志及含義中以鼠傷寒沙門氏菌SalmonellatyphimuriumH1-i基因編碼的鞭毛蛋白FLIC_SALTY為例介紹SWISS-PORT數據庫的數據格式。55精選ppt以鼠傷寒沙門氏菌SalmonellatyphimuIDFLIC_SALTYReviewed;495AA.ACP06179;P97160;Q02871;Q56088;DT01-JAN-1988,integratedintoUniProtKB/Swiss-Prot.DT23-JAN-2007,sequenceversion4.DT24-JUL-2007,entryversion69.DEFlagellin(Phase1-Iflagellin).GNName=fliC;Synonyms=flaF,hag;OrderedLocusNames=STM1959;OSSalmonellatyphimurium.OCBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.OXNCBI_TaxID=602;RN[1]RPNUCLEOTIDESEQUENCE[GENOMICDNA].RXMEDLINE=86059460;PubMed=2999134;RAJoysT.M.;RT"Thecovalentstructureofthephase-1flagellarfilamentproteinofSalmonellatyphimuriumanditscomparisonwithotherflagellins.";RLJ.Biol.Chem.260:15758-15761(1985).序列標識序列編號登錄日期描述基因名稱來源物種物種分類物種分類號引文序號引文位置交叉引用引文作者引文標題引文出處SWISS-PROT數據庫條目實例56精選pptIDFLIC_SALTYRRN[9]RPNUCLEOTIDESEQUENCE[GENOMICDNA]OF476-495.RCSTRAIN=LT2/ATCC23564;……CC-!-FUNCTION:Flagellinisthesubunitproteinwhichpolymerizestoformthefilamentsofbacterialflagella.CC-!-MISCELLANEOUS:IndividualSalmonellaserotypesusuallyalternatebetweentheproductionof2antigenicformsofflagella,termedphase1andphase2,eachspecifiedbyseparatestructuralgenes,fliCandfljB.CC-!-SIMILARITY:Belongstothebacterialflagellinfamily.CCDREMBL;M11332;AAA27072.1;-;Genomic_DNA.DREMBL;D13689;BAA02846.1;-;Genomic_DNA.DREMBL;AE008787;AAL20871.1;-;Genomic_DNA.DREMBL;X51740;CAA36029.1;-;Genomic_DNA.DREMBL;J01801;AAA27074.1;-;Genomic_DNA.DRPIR;A24262;A24262.DRPIR;S16121;S16121.DRPDB;1IO1;X-ray;A=54-451.DRPDB;1P95;Model;A=57-451.DRPDB;1UCU;EM;A=1-495.相關內容評注功能其他特性

相似性交叉引用數據庫EMBL核酸序列數據庫PIR蛋白序列數據庫

PDB蛋白結構數據庫57精選pptRN[9]相關內容57精選pptPE1:Evidenceatproteinlevel;KW3D-structure;Completeproteome;Flagellum.FTINIT_MET11Removed(Bysimilarity).FTCHAIN2495Flagellin.FT/FTId=PRO_0000182578.FTCONFLICT127127S->N(inRef.1).FTCONFLICT133133N->S(inRef.1).……FTHELIX332FTTURN3739FTHELIX4498關鍵詞特征表不同來源數據庫的沖突位點二級結構信息58精選pptPE1:EvidenceatproteinleSQSEQUENCE495AA;51612MW;4BD7849FA3B936BACRC64;MAQVINTNSLSLLTQNNLNKSQSALGTAIERLSSGLRINSAKDDAAGQAIANRFTANIKGLTQASRNANDGISIAQTTEGALNEINNNLQRVRELAVQSANSTNSQSDLDSIQAEITQRLNEIDRVSGQTQFNGVKVLAQDNTLTIQVGANDGETIDIDLKQINSQTLGLDTLNVQQKYKVSDTAATVTGYADTTIALDNSTFKASATGLGGTDQKIDGDLKFDDTTGKYYAKVTVTGGTGKDGYYEVSVDKTNGEVTLAGGATSPLTGGLPATATEDVKNVQVANADLTEAKAALTAAGVTGTASVVKMSYTDNNGKTIDGGLAVKVGDDYYSATQNKDGSISINTTKYTADDGTSKTALNKLGGADGKTEVVSIGGKTYAASKAEGHNFKAQPDLAEAAATTTENPLQKIDAALAQVDTLRSDLGAVQNRFNSAITNLGNTVNNLTSARSRIEDSDYATEVSNMSRAQILQQAGTSVLAQANQVPQNVLSLLR//序列標頭蛋白質序列記錄結束59精選pptSQSEQUENCE495AA;516122.PIR

PIR的子數據庫:蛋白質序列數據庫(PIR-PSD)蛋白質分類數據庫(iProClass)非冗余的蛋白質參考資料數據庫(PIR-NREF)PIR數據庫按照數據性質和注釋層次分四個部分:PIR1序列已經驗證,注釋最為詳盡;PIR2為尚未確定的冗余序列;PIR3序列既未檢驗,也未注釋;PIR4序列來自其它渠道,既未驗證,也無注釋。美國國家生物醫學研究基金會與國際蛋白質信息中心(PIR-International)共同維護。PIR是第一個蛋白質分類和功能注釋數據庫60精選ppt2.PIRPIR的子數據庫:美國國家生物醫學研究基金會

PIR作用:提供基于文本的交互式檢索、序列相似性搜索以及結合序列相似性、注釋信息和蛋白質家族信息的高級檢索。PIR網址:/61精選pptPIR作用:61精選ppt3.TrEMBL是一個經計算機注釋的蛋白質數據庫,采用SWISS-PROT數據庫格式。主要包含從EMBL/Genbank/DDBJ三大核酸數據庫中根據編碼序列翻譯的、尚未集成到SWISS-PROT數據庫中的蛋白質序列。TrEMBL為SWISS-PROT數據庫及時提供補充。TrEMBL網址:http://www.ebi.ac.uk/trembl/62精選ppt3.TrEMBL是一個經計算機注釋的蛋白質數據庫,采用SWI4.UniProtUniProt將SWISS-PROT、PIR、TrEMBL三個數據庫合并。通過文本檢索、序列相似檢索以及UniProtFtp網站可獲得蛋白質序列。如圖6-7所示圖6-7UniProt網站主頁63精選ppt4.UniProtUniProt將SWISS-PUniProt包含UniProtKB、UniRef和UniParc3個部分:(1)UniProtKB數據庫(UniProtKnowledgebase):蛋白質序列、功能、分類、交叉引用等信息存取中心;(2)UniRef數據庫(UniProtReferenceClusters):為提高檢索的速度,將緊密相關的蛋白質序列合并到同一條記錄中。目前,根據序列相似程度可將UniRef數據庫分為UniRef100、UniRef90和UniRef503個子庫(3)UniParc(UniProtArchive):儲存大量蛋白質研究的歷史信息。64精選pptUniProt包含UniProtKB、UniRef和Uni利用UniProt可方便的進行蛋白質序列的交互檢索,SalmonellatyphimuriumH-1項鞭毛蛋白P06176的UniProt檢索截圖如下。UniProt網址:/index.shtml65精選ppt利用UniProt可方便的進行蛋白質序列的交互檢索圖6-8核心數據66精選ppt圖6-8核心數據66精選ppt圖6-9核心數據(續)、引用文獻與評注67精選ppt圖6-9核心數據(續)、引用文獻與評注67精選ppt圖6-10交互檢索與關鍵詞68精選ppt圖6-10交互檢索與關鍵詞68精選ppt圖6-11特征表與序列信息69精選ppt圖6-11特征表與序列信息69精選ppt5.GenPept數據庫GenPept數據庫特點由Genebank數據庫的核酸序列經翻譯后產生。GenPept數據量大,隨核酸數據庫的更新而更新,但未經實驗證實,也未有詳細注釋。

GenPept蛋白質數據庫實例以鼠傷寒沙門氏菌S.typhimuriumH-1-i基因編碼的鞭毛蛋白為例進行GenPept數據庫檢索。70精選ppt5.GenPept數據庫GenPept數據庫特點70精選pGenPept蛋白質數據庫實例LOCUSAAA27072490aalinearBCT26-APR-1993DEFINITIONphase-1flagellarfilamentprotein.ACCESSIONAAA27072VERSIONAAA27072.1GI:153979DBSOURCElocusSTYFLGH1IaccessionM11332.1KEYWORDS.SOURCESalmonellatyphimuriumORGANISMSalmonellatyphimuriumBacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;Enterobacteriaceae;Salmonella.REFERENCE1(residues1to490)AUTHORSJoys,T.M.TITLEThecovalentstructureofthephase-1flagellarfilamentproteinof

SalmonellatyphimuriumanditscomparisonwithotherflagellinsJOURNALJ.Biol.Chem.260(29),15758-15761(1985)PUBMED2999134COMMENTDraftentryandcleancopysequencefor[1]kindlyprovidedbyT.M.Joyce,18-FEB-1986.IndividualSalmonellaserotypesusuallyalternatebetweentheproductionoftwoantigenicformsofflagella,termedphase-1andphase-2,eachspecifiedbyseparatestructuralgenes.……序列標識簡單描述序列編號版本號關鍵詞物種來源物種分類引文編號引文作者引文標題引文出處評注71精選pptGenPept蛋白質數據庫實例LOCUSAAAFEATURESLocation/Qualifierssource1..490/organism="Salmonellatyphimurium"/db_xref="taxon:602"

Protein1..490/name="phase-1flagellarfilamentprotein"Region1..490/region_name="PRK08026"/note="flagellin;PRK08026"/db_xref="CDD:76379"Region29..163/region_name="Flagellin_N"/note="BacterialflagellinN-terminus.Flagellinspolymerisetoformbacterialflagella.Thisfamilyincludesflagellinsandhookassociatedprotein3;pfam00669"/db_xref="CDD:64529"Region191..>256/region_name="Flagellin_D3"/note="FlagellinD3domain.ThisdomainisfoundinthecentralportionbacterialflagellinFliC.Thedomaincontainsastructuralmotifcalledabeta-foliumfold;pfam08884"/db_xref="CDD:72304"特征表72精選pptFEATURESLocation/

Region397..468/region_name="Flagellin_C"……/db_xref="CDD:64558"CDS1..490/coded_by="M11332.1:13..1485"/transl_table=11ORIGIN1maqvintnslslltqnnlnksqsalgtaierlssglrinsakddaagqaianrftanikg61ltqasrnandgisiaqttegalneinnnlqrvrelavqsanstnsqsdldsiqaeitqrl121neidrvngqtqfsgvkvlaqdntltiqvgandgetididlkqinsqtlgldtlnvqqkyk181vsdtaatvtgyadttialdnstfkasatglggtdekidgdlkfddttgkyyakvtvtggt241gkdgyyevsvdktngevtlaavtpatvttatalsgkmysanpdsdiakaaltaagvtgta301svvkmsytdnngktidgglavkvgddyysatqdkdgsisidttkytadngtsktalnklg361gadgktevvtidgktynaskaaghdfkaepelaeqaakttenplqkidaalaqvdtlrsd421lgavqnrfnsaitnlgntvnnlssarsriedsdyatevsnmsraqilqqagtsvlaqanq481vpqnvlsllr//蛋白質序列記錄結束GenPept的網址是:/pub/genpept/73精選pptRegion397..468GenP國際上主要的蛋白質序列數據庫的種類和特點

名稱維護單位注釋冗余度數據量更新PIRNCBI、JIPID、MIPS部分完善較大較大較慢SWISSPROTEBI、SIB完善小不大較慢NRL-3DNCBI完善小小較慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大較快OWLHGMP一般小大較慢(引自《生物信息學》,趙國屏等編著,科學出版社,2002)74精選ppt國際上主要的蛋白質序列數據庫的種類和特點名稱維護單位注釋冗(二)蛋白質序列二次數據庫

1.PROSITEPROSITE是蛋白質家族保守區域和功能位點數據庫,也是第一個蛋白質序列二次數據庫,收錄蛋白質家族中同源序列多重比對所確定的保守性區域:如酶活性位點、配體結合位點、金屬離子結合位點、其它蛋白質結合位點等已知具有重要生物學功能蛋白質位點和序列模式。PROSITE數據庫組成包含Prosite(數據文件)和PrositeDoc(說明文件)兩個文件數據庫。PROSITE數據庫主頁如圖6-12所示。75精選ppt(二)蛋白質序列二次數據庫1.PROSITE75精選ppt圖6-12PROSITE數據庫主頁76精選ppt圖6-12PROSITE數據庫主頁76精選pptPROSITE數據庫作用:可確定一段新蛋白質序列中包含的功能位點以及其歸屬的蛋白質家族。PROSITE的網址:http://www.expasy.ch/prosite/或/prosite/PROSITE的中國鏡像網址是:/prosite/77精選pptPROSITE數據庫作用:可確定一段新蛋白質序列中包含的功能2.PRINTSPRINTS蛋白質指紋圖譜數據庫將多個保守的序列模式作為識別蛋白質家族的特征,與PROSITE數據庫的單個序列模式相比,PRINTS具有更好的識別率。PRINTS網址:http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/78精選ppt2.PRINTS78精選ppt3.BLOCKS序列模塊(block):是通過序列比對得到的若干蛋白質序列中具有較高相似性的序列片段。BLOCKS由通過自動檢測PROSITE數據庫和PRINTS蛋白質指紋圖譜數據庫中蛋白質家族高度保守區域產生的序列模塊組成。BLOCKS的網址:/79精選ppt3.BLOCKS79精選ppt(三)蛋白結構數據庫

1.PDBPDB(ProteinDataBank)蛋白質結構數據庫是國際上最完整的蛋白質、核酸、糖類、蛋白質-核酸復合物及病毒等生物大分子三維結構數據庫。PDB主頁,如圖6-13所示。其數據庫增長曲線,如圖6-14所示。80精選ppt(三)蛋白結構數據庫

1.PDB80精選ppt圖6-13PDB數據庫主頁81精選ppt圖6-13PDB數據庫主頁81精選ppt圖6-14結構數據庫增長曲線截圖紅色圖:總結構數藍色圖:新增結構數(引自/pdb/statistics/contentGrowthChart.do?content=molType-protein&seqid=100)82精選ppt圖6-14結構數據庫增長曲線截圖82精選pptPDB數據庫作用提供序列詳細信息、原子坐標、三維結構、交叉檢索等與結構相關的信息。PDB數據庫實例以鼠傷寒沙門氏菌SalmonellatyphimuriumH1-i鞭毛蛋白(P06176)F41片段晶體結構為例,圖示PDB數據庫格式(框6-4)和網頁格式(圖6-15)。三維結構的動態展示(如圖6-16所示)。PDB的地址:/pdb/home/home.do83精選pptPDB數據庫作用83精選ppt框6-4PDB格式實例HEADERSTRUCTURALPROTEIN28-DEC-001IO1TITLECRYSTALSTRUCTUREOFF41FRAGMENTOFFLAGELLINCOMPNDMOL_ID:1;COMPND2MOLECULE:PHASE1FLAGELLIN;……SOURCEMOL_ID:1;SOURCE2ORGANISM_SCIENTIFIC:SALMONELLATYPHIMURIUM;……KEYWDSBETA-FOLIUM,FLAGELLINEXPDTAX-RAYDIFFRACTIONAUTHORF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,T.KUMASAKA,AUTHOR2M.YAMAMOTO,K.NAMBAREVDAT215-APR-031IO11SOURCEDBREFSEQADVREVDAT104-APR-011IO10JRNLAUTHF.A.SAMATEY,K.IMADA,S.NAGASHIMA,F.VONDERVISZ,JRNLAUTH2T.KUMASAKA,M.YAMAMOTO,K.NAMBA……REMARK1REMARK2REMARK2RESOLUTION.2.00ANGSTROMS.

……標頭題目化合物名稱來源關鍵詞作者發布日期相關文獻注釋84精選ppt框6-4PDB格式實例HEADERSTRUCTUSEQADV1IO1ALAA426UNPP06179GLY426CONFLICTSEQRES1A398PHETHRALAASNILELYSGLYLEUTHRGLNALASERARGSEQRES2A398ASNALAASNASPGLY

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論