




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第二章第二章 生物信息數據庫生物信息數據庫1、模式生物、模式生物2、數據庫、數據庫第二節第二節 數據庫數據庫生物分子數據生物分子數據高速增長高速增長 分子生物學分子生物學及相關領域研究人員及相關領域研究人員迅速獲得最新實驗數據迅速獲得最新實驗數據 建立生物分子數據庫建立生物分子數據庫 (1)數據庫的更新速度不斷加快)數據庫的更新速度不斷加快 數據量呈指數增長趨勢數據量呈指數增長趨勢 (2)數據庫使用頻率增長更快)數據庫使用頻率增長更快 (3)數據庫的復雜程度不斷增加)數據庫的復雜程度不斷增加 (4)數據庫網絡化)數據庫網絡化 (5)面向應用)面向應用(6)先進的軟硬件配置)先進的軟硬件配置 分
2、子生物信息數據庫種類繁多。歸納起來,大體可以分為4個大類,即基因組數據庫、核酸和蛋白質一級結構數據庫、生物大分子(主要是蛋白質)三維空間結構數據庫,以及由上述3類數據庫和文獻資料為基礎構建的二次數據庫。 通常分法:序列數據庫序列數據庫 結構數據庫結構數據庫生物信息生物信息 學數據庫學數據庫 工具工具 染色體染色體核酸核酸蛋白質蛋白質基因組圖譜基因組圖譜DNA序列序列蛋白質序列蛋白質序列蛋白質結構蛋白質結構基因組基因組數據庫數據庫核酸序列核酸序列數據庫數據庫蛋白質序列蛋白質序列數據庫數據庫蛋白質結構蛋白質結構數據庫數據庫二級數據庫二級數據庫 復合數據庫復合數據庫基因組作圖基因組作圖序列測定序列測
3、定結構測定結構測定國際著名的生物信息中心 NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS Nati
4、onal Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore)國內生物信息資源 北大生物信息中心 中科院上海生物信息中心 華大基因 國家人類基因組北方研究中心 博奧芯片 國際上權威的核酸序列數據庫國際上權威的核酸序列數據庫 (1)歐洲分子生物學實驗室的EMBL http:/www.embl-heidelberg.de (2)美國生物技術信息中心的GenBank http:/www.ncbi.n
5、/Web/Genbank/index.html (3)日本遺傳研究所的DDBJ http:/www.ddbj.nig.ac.jp/GenBankDDBJEMBL 三個數據庫中的數據基本一致,僅在三個數據庫中的數據基本一致,僅在數據格式上有所差別,對于特定的查詢,數據格式上有所差別,對于特定的查詢,三個數據庫的響應結果一樣。三個數據庫的響應結果一樣。 這三個數據庫是綜合性的這三個數據庫是綜合性的DNADNA和和RNARNA序序列數據庫,每條記錄代表一個單獨、連列數據庫,每條記錄代表一個單獨、連續、附有注釋的續、附有注釋的DNADNA或或RNARNA片段。片段。美國的核酸數據庫
6、美國的核酸數據庫GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7從從1979年開始建設,年開始建設,1982年正式運行;年正式運行;NCBI下子數據庫下子數據庫 歐洲分子生物學實驗室的歐洲分子生物學實驗室的EMBL數據庫也于數據庫也于1982年開始服務年開始服務日本于日本于1984年開始建立國家級的核酸數年開始建立國家級的核酸數據庫據庫DDBJ,并于,并于1987年正式服務。年正式服務。一、GenBank數據庫 GenBank(/genbank/)是一個綜合數據庫,該數據庫
7、中包含了已是一個綜合數據庫,該數據庫中包含了已經公開的經公開的30萬余種不同物種生物的核酸序萬余種不同物種生物的核酸序列,這些數據主要來源于全世界不同實驗列,這些數據主要來源于全世界不同實驗室和大規模測序計劃項目。室和大規模測序計劃項目。 GenBank是具有目錄和生物學注釋的核酸序列綜是具有目錄和生物學注釋的核酸序列綜合數據庫,由美國國家醫學圖書館的國家生物技術合數據庫,由美國國家醫學圖書館的國家生物技術信息中心構建、維護和管理。該中心位于美國馬里信息中心構建、維護和管理。該中心位于美國馬里蘭國家健康研究所(蘭國家健康研究所(NIH)。)。GenBank數據庫的序數據庫的序列數據來源于序列發
8、現者提交的序列、批量提交的列數據來源于序列發現者提交的序列、批量提交的表達序列標簽(表達序列標簽(expressed sequence tag, EST)、)、基因組測序序列(基因組測序序列(genome survey sequence, GSS)和其他測序中心提供的高通量數據,還包括)和其他測序中心提供的高通量數據,還包括美國專利商標局提供的已發表專利的序列數據。美國專利商標局提供的已發表專利的序列數據。 GenBank數據庫每天與歐洲分子生物學實數據庫每天與歐洲分子生物學實驗室的核酸序列數據庫(驗室的核酸序列數據庫(European Molecular Biology Laboratory
9、 Nucleotide Sequence Database,EMBL)和日本的和日本的DNA數據庫(數據庫(DNA Data Bank of Japan DDBJ)進行數據交換,以保證數據)進行數據交換,以保證數據庫內容在全世界范圍的同步性。庫內容在全世界范圍的同步性。 在在NCBI(/)的主)的主頁上提供了進入頁上提供了進入GenBank的路徑、相關檢索和分的路徑、相關檢索和分析服務。析服務。 通過通過NCBI的檢索系統(的檢索系統(Entrez)可以進入)可以進入GenBank。Entrez檢索程序整合了主要的檢索程序整合了主要的DNA和
10、蛋白序列數據的分類學、基因組、圖譜、蛋白和蛋白序列數據的分類學、基因組、圖譜、蛋白結構和結構(功能)域信息,還包括相關的結構和結構(功能)域信息,還包括相關的PubMed的生物醫學文獻信息。的生物醫學文獻信息。 BLAST程序提供程序提供GenBank和其他序列數據庫中和其他序列數據庫中序列相似性搜索服務。序列相似性搜索服務。 (一)GenBank數據庫結構 1. 依據序列的物種來源分類依據序列的物種來源分類 2. Genbank記錄和分類記錄和分類 2.1 表達序列標簽表達序列標簽(EST) 2.2 序列標簽位點序列標簽位點(STS)、基因組勘測序列、基因組勘測序列(GSS)和環和環境樣品序
11、列境樣品序列(ENV) 2.3 高通量基因組高通量基因組(HTG)和高通量和高通量cDNA(HTC)序列序列 2.4 全基因組鳥槍測序序列全基因組鳥槍測序序列(WGS) 2.5 轉錄組鳥槍組合序列轉錄組鳥槍組合序列 (一)GenBank數據庫結構 3. 特殊記錄類型特殊記錄類型 3.1 第三方注釋(第三方注釋(TPA) 3.2 GenBank CON記錄記錄 較小記錄組合記錄較小記錄組合記錄 (二)構建數據庫 1直接電子提交 1.1 使用BankIt提交 1.2 使用Sequin和tbl2asn提交 1.3 條形碼序列提交 2. 序列標識符和記錄號 (三)檢索GenBank數據 1. Entr
12、ez系統系統 (/sites/gquery) 2. 與測序計劃檢索相關的序列記錄與測序計劃檢索相關的序列記錄 (/genomeprj) 3. BLAST 序列相似性搜索序列相似性搜索 (/Blast.cgi) 4. 用用FTP獲取獲取GenBank (/genbank) 二、EMBL數據庫 EMBL建立于1980年,EMBL核苷序列數據庫(http:/ www.edi.ac.uk/embl/)
13、是歐洲主要的核苷序列收集單位,歐洲生物信息中心EBI(即EMBL在德國海德堡的站點)維護這個數據庫。 核苷數據來自基因組測序中心、世界各地的科學家、歐洲專利局、以及與合作伙伴DDBJ (Japan)和GenBank (USA)交換的數據。 三、DDBJ數據庫 日本日本DNA數據庫(數據庫(DDBJ)是在亞洲唯一的核酸)是在亞洲唯一的核酸序列數據庫,是搜集研究者公認的測定核酸序列序列數據庫,是搜集研究者公認的測定核酸序列的數據庫,并且發放給數據提交者國際認證的核的數據庫,并且發放給數據提交者國際認證的核酸序列編號。由于酸序列編號。由于DDBJ每天將搜集的數據與每天將搜集的數據與EMBL-Bank
14、/EBI和和GenBank/NCBI進行交換,進行交換,使得三個核酸數據庫幾乎在任何時候都享有相同使得三個核酸數據庫幾乎在任何時候都享有相同數據。數據。DDBJ主要收集來自日本研究者獲得的序主要收集來自日本研究者獲得的序列數據,但也收集數據和發放編號給任何其他國列數據,但也收集數據和發放編號給任何其他國家的研究者。家的研究者。 四、其他重要的核酸序列數據庫 dbEST:dbEST是是GenBank中的一個子數據庫,中的一個子數據庫,包含來源于不同物種的表達序列數據和表達序列包含來源于不同物種的表達序列數據和表達序列標簽序列的其他信息。標簽序列的其他信息。 ncRNAdb:非編碼:非編碼RNA(
15、non-coding RNA ncRNA)數據庫旨在提供非編碼)數據庫旨在提供非編碼RNA的序列和功的序列和功能信息。能信息。 miRBase:miRBase序列數據庫主要存放已發表序列數據庫主要存放已發表的微小的微小RNA(microRNA miRNA)序列和注釋的序列和注釋的數據庫。數據庫。 (美國、加拿大)(美國、加拿大)The Genome Database 1990年,年,John Hopkins大學建立,后由加拿大兒童醫院生物信息大學建立,后由加拿大兒童醫院生物信息中心管理中心管理.基因單位、基因單位、PCR位點、細胞遺傳標記、位點、細胞遺傳標記、EST、contig、重復片段、基
16、、重復片段、基因組圖譜因組圖譜與其它分子生物信息網絡資源(與其它分子生物信息網絡資源(EMBL、GenBank)的鏈接)的鏈接 線蟲基因組數據庫。既是一個數據庫,又是一個數據庫管理系統。線蟲基因組數據庫。既是一個數據庫,又是一個數據庫管理系統。 提供很好的圖形界面,用戶能夠從大到整個基因組小到序列的各提供很好的圖形界面,用戶能夠從大到整個基因組小到序列的各 個層次觀察和分析基因組數據。個層次觀察和分析基因組數據。 限制性圖譜,基因結構信息,質粒圖譜,序列數據,參考文獻限制性圖譜,基因結構信息,質粒圖譜,序列數據,參考文獻 (歐洲歐洲) (美國美國)蛋白質功
17、能、結構域和蛋白質家族有關的數據庫: PROSITE InterPro Pfam ProDom SMART 等 蛋白質三維結構相關數據庫: PDB BioMagResBank SWISS-MODEL Repository ModBase CATH SCOP ReLiBase TOPS SWISS-3DIMAGE BioImage等 蛋白質二維凝膠電泳數據庫: WORLD-2DPAGE Phoretix links 信號傳導及蛋白質-蛋白質相互作用相關數據庫: DIP INTERACT ProNet KEGG CANSITE SPAD CSNDB等 DNA和蛋白質相互作用數據庫:DPIntera
18、ct 蛋白質翻譯后修飾相關數據庫:O-GlycBase、PhosphoBase、RES蛋白質等蛋白質 1. 瑞士日內瓦大學瑞士日內瓦大學 (Geneva )醫學生物化學系和歐洲生物信息學研究所)醫學生物化學系和歐洲生物信息學研究所(EBI)合作維護(合作維護(1986年);年); 2. 在在EMBL和和GenBank數據庫上均建立了鏡像站點數據庫上均建立了鏡像站點; 3. 數據庫包括了從數據庫包括了從EMBL翻譯而來的蛋白質序列,這些序列經過檢驗和注釋;翻譯而來的蛋白質序列,這些序列經過檢驗和注釋; 4. 數據記錄包括兩部分:數據記錄包括兩部分: 序列序列 注釋注釋 (結構域、功能位點、跨膜區
19、域、二硫鍵位置、翻結構域、功能位點、跨膜區域、二硫鍵位置、翻 譯后的修飾、突變體等譯后的修飾、突變體等) 5. 數據存在滯后性數據存在滯后性 TrEMBL數據庫的建立數據庫的建立SWISS-PROT的網址:的網址: /sprotTrEMBL的網址:的網址: http:/www.ebi.ac.uk/trembl/index.htmlSWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html)是目前國際上比較權威的蛋白質序列數據庫,其中的蛋白質序列是經過注釋的 SWISS-PROT中的數據來源于不同源地:(1)從核
20、酸數據庫經過翻譯推導而來;(2)從蛋白質數據庫PIR挑選出合適的數據;(3)從科學文獻中摘錄;(4)研究人員直接提交的蛋白質序列數據 1. 由美國由美國NCBI翻譯自翻譯自GenBank的的DNA序列序列(1984年年); 2. 在在EMBL和和GenBank數據庫上均建立了鏡像站點;數據庫上均建立了鏡像站點; 3. 數據依據注釋的質量分為數據依據注釋的質量分為4類。類。 網址:網址: /分類名稱分類名稱(Name)說明說明(Comment)記錄數記錄數(Number of entries)PIR1已分類、已注釋已分類、已注釋(Clas
21、sified and annotated)13572PIR2已注釋已注釋(Annotated)69368PIR3未核實未核實(Unverified)7508PIR4未翻譯未翻譯(Unencoded or untranslated)196 目的:目的:幫助研究者鑒別和解釋蛋白質序列信息,幫助研究者鑒別和解釋蛋白質序列信息,研究分子進化、功能基因組。研究分子進化、功能基因組。 它是一個全面的、經過注釋的、非冗余的蛋白質序列數它是一個全面的、經過注釋的、非冗余的蛋白質序列數據庫。據庫。 所有序列數據都經過整理,超過所有序列數據都經過整理,超過99%99%的序列已按蛋白質的序列已按蛋白質家族分類,一半
22、以上還按蛋白質超家族進行了分類家族分類,一半以上還按蛋白質超家族進行了分類。1、PIR(Protein Information Resource)除了蛋白質序列數據之外,除了蛋白質序列數據之外,PIR還包含以下信息:還包含以下信息: (1)蛋白質名稱、蛋白質的分類、蛋白質的來源;蛋白質名稱、蛋白質的分類、蛋白質的來源; (2)關于原始數據的參考文獻;關于原始數據的參考文獻; (3)蛋白質功能和蛋白質的一般特征,包括基因表達、翻蛋白質功能和蛋白質的一般特征,包括基因表達、翻 譯后處理、活化等;譯后處理、活化等; (4)序列中相關的位點、功能區域。序列中相關的位點、功能區域。PIR提供三種類型的檢
23、索服務:一是基于文本的交互式查詢,用戶通過關鍵字進行數據查詢。二是標準的序列相似性搜索,包括BLAST、FastA等。三是結合序列相似性、注釋信息和蛋白質家族信息的高級搜索,包括按注釋分類的相似性搜索、結構域搜索等。四個子數據庫Uniprot- 通用蛋白質資源通用蛋白質資源數據庫數據庫iProClass-蛋白質知識整蛋白質知識整合數據庫合數據庫PIRSF-蛋白質家族分類系蛋白質家族分類系統統iProLINK-蛋白質文獻、信蛋白質文獻、信息和知識整合數據庫息和知識整合數據庫 1.UniProt-通用蛋白質資源庫通用蛋白質資源庫 UniProt(/) 存儲
24、和鏈接其他蛋白質數據庫的資源庫,并且是存儲和鏈接其他蛋白質數據庫的資源庫,并且是蛋白質序列和具有綜合功能注釋目錄的中心資源蛋白質序列和具有綜合功能注釋目錄的中心資源庫。使用庫。使用UniprotKB可以檢索準確、可靠的蛋白可以檢索準確、可靠的蛋白綜合信息。使用綜合信息。使用UniRef可以減少冗余,加速序列可以減少冗余,加速序列相似性搜索。使用相似性搜索。使用UniParc可以檢索存檔序列和可以檢索存檔序列和它們來源的數據庫。它們來源的數據庫。 2. iProClass-蛋白質知識整合數據庫蛋白質知識整合數據庫 iProClass(/iprocl
25、ass/) 提供來自提供來自90多個生物學數據庫的大量整合數據,包括蛋白多個生物學數據庫的大量整合數據,包括蛋白ID圖譜服務、圖譜服務、UniProtKB編注蛋白質摘要描述和篩選編注蛋白質摘要描述和篩選UnParc數據庫的蛋白質序列。使用數據庫的蛋白質序列。使用iProClass可以檢索最新的蛋白可以檢索最新的蛋白質綜合信息,包括:功能、轉導通路、相互作用、家族分類、質綜合信息,包括:功能、轉導通路、相互作用、家族分類、基因和基因組、功能注釋標準體系(基因和基因組、功能注釋標準體系(ontology)、文獻和分)、文獻和分類學信息。使用類學信息。使用iProClass還可以檢索還可以檢索ID圖
26、譜、蛋白質詞典圖譜、蛋白質詞典和相關序列。和相關序列。 3. PIRSF-蛋白質家族分類系統蛋白質家族分類系統 PIRSF(/pirsf/) 分類系統概要論述家族的特征,如家族名稱、分分類系統概要論述家族的特征,如家族名稱、分類分布、分級和功能域結構,以及家族成員,包類分布、分級和功能域結構,以及家族成員,包括功能、結構、傳導通路、功能注釋標準體系括功能、結構、傳導通路、功能注釋標準體系(ontology)和家族分類。利用這些信息可以獲)和家族分類。利用這些信息可以獲得蛋白質的準確功能或預測的功能和該蛋白質所得蛋白質的準確功能或預測的功能和該蛋白
27、質所屬家族成員共有的其他特征。屬家族成員共有的其他特征。 4. iProLINK-蛋白質文獻、信息和知識整合數據庫蛋白質文獻、信息和知識整合數據庫 iProLINK(/iprolink/) 提供有關注釋內容的文獻、蛋白質名稱詞典和其他有助于提供有關注釋內容的文獻、蛋白質名稱詞典和其他有助于文獻挖掘的人文語言處理技術開發的信息、數據庫校正、文獻挖掘的人文語言處理技術開發的信息、數據庫校正、蛋白質名稱標記和功能注釋標準體系(蛋白質名稱標記和功能注釋標準體系(ontology)。使)。使用用iProLINK可以獲得描述蛋白質記錄的文本文獻資源,可以獲得
28、描述蛋白質記錄的文本文獻資源,在在UniProtKB記錄(生物詞典)中加入蛋白質或基因命名記錄(生物詞典)中加入蛋白質或基因命名的圖譜,獲得用于開發文本挖掘算法的注釋數據集、挖掘的圖譜,獲得用于開發文本挖掘算法的注釋數據集、挖掘蛋白質磷酸化(蛋白質磷酸化(RLIMS-P)文獻和獲得蛋白質功能注釋標)文獻和獲得蛋白質功能注釋標準體系(準體系(ontology)()(PRO)信息。)信息。 1. 目前最主要的蛋白質分子結構數據庫;目前最主要的蛋白質分子結構數據庫; 2. 1970年代建立,年代建立,美國美國Brookhaven國家實驗室國家實驗室維護管理維護管理; 3. 1988年,由美國年,由美
29、國RCSB(research collaboratory for structural biology)管理;管理; 4. 以文本格式存放數據,包括原子坐標、物種來源、測定方法、提交以文本格式存放數據,包括原子坐標、物種來源、測定方法、提交者信息、一級結構、二級結構等;者信息、一級結構、二級結構等; 5. PDBsum數據庫:數據庫:PDB注釋信息綜合數據庫,具有檢索、分析、可注釋信息綜合數據庫,具有檢索、分析、可視化的功能。視化的功能。PDB的網址:的網址:/pdb(美國美國) PDBsum的網址:的網址:http:/www.biochem.ucl.ac.
30、uk/bsm/pdbsumHEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; 。COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; 。SOURCE 7 EX
31、PRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, 。REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION 。REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1 - 111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183 - 304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農業種植區域技術承包協議
- 供水管網消隱改造工程實施方案
- 《電磁波譜及其應用:高中物理進階課程教案》
- 化學無機化學知識點梳理與練習
- 《羅馬法的起源與影響:大學法律專業教案》
- 電競行業賽事組織流程
- 企業間技術咨詢顧問協議
- 2025年氣候變化對水資源管理的影響及應對能力測試卷及答案
- 2025年可持續發展與環境政策考試試題及答案
- 2025年機械設計與制造考試試題及答案
- 低壓電工證考試試題及答案
- 2025年大學生學術研究洞察報告
- 2025年廣東中考化學模擬演練化學試卷B(含答案)
- 2025年全國二卷數學高考真題文字版
- 成都香城悅動置業有限公司招聘考試真題2024
- T/CTRA 01-2020廢輪胎/橡膠再生油
- 可信數據空間解決方案星環科技
- 2025廣西專業技術人員公需科目培訓考試答案
- 鉗工安全測試題及答案
- 2023年北京西城區初一(下)期末數學試題及答案
- 負壓氣力輸送系統
評論
0/150
提交評論