一步一步教你使用NCBI數據庫資源_第1頁
一步一步教你使用NCBI數據庫資源_第2頁
一步一步教你使用NCBI數據庫資源_第3頁
一步一步教你使用NCBI數據庫資源_第4頁
一步一步教你使用NCBI數據庫資源_第5頁
已閱讀5頁,還剩23頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

..一步一步教你使用NCBI數據庫資源隨著ncbi數據庫各種資源的涌現,NCBI已經成為科研工作者必不可少的資料查找,數據分析的工具。那么NCBI數據如何使用,新手入門一步一步教你認識和使用NCBI數據庫。一綜合數據庫NCBI數據庫集 美國國立生物技術信息中心<NationalCenterforBiotechnologyInformation>,即我們所熟知的NCBI是由美國國立衛生研究院<NIH>于1988年創辦。創辦NCBI的初衷是為了給分子生物學家提供一個信息儲存和處理的系統。除了建有GenBank核酸序列數據庫<該數據庫的數據資源來自全球幾大DNA數據庫,其中包括日本DNA數據庫DDBJ、歐洲分子生物學實驗室數據庫EMBL以及其它幾個知名科研機構>之外,NCBI還可以提供眾多功能強大的數據檢索與分析工具。目前,NCBI提供的資源有Entrez、EntrezProgrammingUtilities、MyNCBI、PubMed、PubMedCentral、EntrezGene、NCBITaxonomyBrowser、BLAST、BLASTLink<BLink>、ElectronicPCR等共計36種功能,而且都可以在NCBI的主頁上找到相應鏈接,其中多半是由BLAST功能發展而來的。 1NCBI最新進展 1.1PubMed搜索功能的增強 去年,NCBI對PubMed進行了幾項改進工作,改動最大的是搜索界面和摘要瀏覽界面。其中,搜索界面中新增了"AdvancedSearch"選項<這實際上是對以往"Limits"和"Preview/Index"功能的整合>,并且增加了一個新的窗口,用戶可以在此窗口下通過"論文作者名"、"論文所屬雜志名稱"、"論文出版日期"等限定條件進行搜索。而且,"論文作者名"和"論文所屬雜志名稱"還設有文本框自動填充功能。現在,在PubMed數據庫中進行文本搜索的同時還可以立即通過兩個"內容傳感器<contentsensors>"進行分析。一個"內容傳感器"是根據作者姓名、所屬雜志名稱或雜志名縮寫、出版日期、卷號或刊號等信息進行分析,然后將符合條件的搜索結果排列到結果列表的頂端。另一個"內容傳感器"是根據文章是否與用戶給出的條件,例如是否與某種藥物相關,在NCBI的新增數據庫PubMedClinicalQ&A中進行搜索,然后給出搜索結果。 1.2新增primer-BLAST分析工具 20XX,NCBI新增了設計、分析PCR引物的工具——Primer-BLAST。Primer-BLAST的引物設計功能是基于NCBI現有的Primer3程序發展而來的,Primer3程序可以為一段DNA模板序列設計PCR引物。Primer-BLAST在設計出引物之后還在某些相應數據庫中進行BLAST搜索,因此可以得到特異性引物,擴增出目的片段。用戶在給出DNA模板的同時還可以限定正向引物或反向引物,這樣,NCBI就只會給出另一條引物。如果用戶給出了模板DNA和兩條引物序列,Primer-BLAST就只會運行BLAST程序,幫助用戶對引物進行分析。用戶也可以只給出兩條引物而不給出模板序列,這時Primer-BLAST會通過BLAST程序分析出與這對引物最匹配的模板序列。Primer-BLAST進行BLAST搜索的數據庫包括RefSeqmRNA、BLASTnr和12種模式生物基因組數據庫。 1.3BLAST的改進及更新 NCBI對BLAST進行了全新的改版,推出了最新的webBLASTreport。在最新的BLAST比對結果頁面中,"圖形化概要<GraphicSummary>"、"具體描述<Descriptions>"以及"序列比對<Alignments>"等部分頁面都可以展開和收起。此外,網頁上還提供了"結果輸出格式選項<Formatting>"和"結果下載選項<download>",在下載選項中還新增了CSV格式下載。這樣,讀者可以輕松地將BLAST的比對結果輸入到表格處理軟件中去。另外,BLAST比對結果頁面上的"Alignments"部分還提供了每一條命中序列在EntrezGENE中的相關信息,這些信息包括基因名稱、來源物種以及在PubMed數據庫中與該基因有關條目的數目等。 "BLASTtree"結果輸出模式可以測量不同序列間的距離,自動收起亞類信息等。現在,可以以Newick格式或Nexus格式下載BLASTtree結果,也可以在進化樹圖中選擇任一節點重新構樹。最后還要向讀者介紹ncbiblast的一個新網址:URL:。NCBI建議讀者都使用這個網址登陸NCBIBLAST,因為該BLAST使用更多的計算機進行分析,也具有更強的系統容錯能力。 1.4EntrezGene改進及更新 基因組注釋工作當中有一項重要的工作就是定位基因重疊群序列<contigsequences>,即在染色體中找出某個基因的定位。實際上基因組測序工作就是將許多基因重疊序列彼此拼接,最后拼出"完整<中間會有一些縫隙>"的基因組圖譜。這項工作可以直接將某個基因與某段基因重疊群序列對應起來,但不能直接將該基因與染色體聯系起來,而這恰恰是生物學家最感興趣的地方。因此,為了能讓用戶在搜索基因的同時,也能了解到一些該基因在染色體中的定位情況,EntrezGene推出了新的"Limits"服務,用戶可以使用該服務在基因組范圍內進行基因搜索。用戶可以在某個物種染色體的某個區域里進行基因搜索。 EntrezGene會按以下三種順序對搜索出的基因進行排序: 1.按照基因名排序。 2.按照相關性排序,即按照結果與用戶搜索所使用的關鍵詞,例如基因名稱等的匹配程度排序。 3.按照基因重要性排序,即按照該基因在PubMed、Homologene、ProteinClusters、OnlineMendelianInheritanceinMan<OMIM>或Bookshelf中文獻數量的多少進行排序。 2ENTREZ搜索系統 2.1Entrez Entrez數據庫是一個整合了多個數據庫的綜合檢索系統,它包含了35個不同數據庫的信息,共收錄有超過350,000,000條記錄<表1>。Entrez數據庫支持使用簡單的布爾查詢<Booleanqueries>方式進行文本搜索,可以下載不同格式的數據資料,還可以按照生物學關系提供與其它相關記錄的鏈接。這些鏈接給出的都是最簡要的信息,例如會給出一條序列和報道該序列的論文摘要,或者會給出一條蛋白質序列的編碼DNA序列或該蛋白質的3D結構圖。這種通過計算機運算,即基于比較序列相似性或PubMed中摘要的相似性,所給出的相關鏈接信息可以以最快的速度提供給用戶大量的相關信息。還有一種叫做"LinkOut"的功能將這種鏈接功能擴展到了與外部數據庫,例如各物種基因組數據庫之間的鏈接。Entrez中搜索到的數據可以以多種格式輸出,也可以打包下載或逐個下載。2.2MyNCBIMyNCBI功能是為了方便用戶儲存個人配置信息,例如搜索條件、LinkOut參數或文件出處等而設的。用戶登陸自己的MyNCBI帳戶后,就可以進行保存搜索設置、管理郵件等操作了。MyNCBI中有一種稱作"Collections"的功能可以讓用戶儲存搜索結果和文獻結果。BLAST中也設有類似的功能,這樣用戶就可以使用同一條件進行多次比對了。2.3Entrezprogrammingutilities<E-Utilities>E-Utilities<Entrez應用程序>由8種服務器程序組成,借助E-Utilities可以設置一套標準參數進行搜索、鏈接和下載數據<表2>。用戶可以到NCBI主頁上的‘EntrezTools’鏈接中了解更多有關E-Utilities的信息。 2.4Taxonomy NCBITaxonomy<分類>數據庫在Entrez生物學數據庫中起到了組織中心的作用。該數據庫為每一個分類學上的節點,從超界節點<superkingdoms>到亞種節點<subspecies>,提供數據鏈接服務。分類數據庫以每月增加2200個新分類單位的速度在增長,共收錄有將近300,000種物種信息,這些信息為"屬<genus>"級別,或者雖然未達到"屬<genus>"級別,但在Entrez至少收錄有一條該物種的核酸序列或蛋白質序列信息。使用Taxonomy網頁可以了解該物種在分類學上的地位,也可以在某一物種范圍內對Entrez數據庫進行搜索。 3BLAST序列相似性搜索程序 BLAST程序是一種進行序列相似性搜索的程序,它可以對核酸序列或蛋白質序列進行分析。經過BLAST程序比對之后會得到各種序列結果,例如轉錄體序列<UniGene>信息、基因序列<Gene>信息、3D結構信息<MMDB>或芯片信息<GEO>等。用戶也可以使用MyNCBI功能保留BLAST中設定的搜索題目、近期搜索結果和搜索參數等信息。還有一種BLAST程序——BLAST2Sequences程序,它可以對兩條DNA序列或蛋白質序列進行比對,并獲得一個點對點的比對結果。BLAST程序也可以作為一個獨立的程序下載到本地計算機上使用,用戶可以到/blast/executables/LATEST/下載<表3>。3.1BLASTBLAST默認的比對信息數據庫包括NCBI中的人類基因組數據庫和人類RefSeq數據庫。比對之后,BLAST會按照評分高低、序列相似度對結果進行排序,另外BLAST還可以對小鼠數據庫以及其它數據庫進行比對。蛋白質序列的默認數據庫包括GenBank非冗余數據庫、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外,還包括這些數據庫下的子數據庫以及其它一些專利數據庫和諸如核酸數據庫等環境樣品數據庫<environmentalsamples>。3.2BLASToutputformats標準的BLAST輸出格式包括默認的配對比對格式<defaultpairwisealignment>、搜索定位的多序列比對格式<query-anchoredmultiplesequencealignmentformats>、簡單的可解析的HitTable格式以及按照分類學給出的報告格式等。一種叫做"按照同一性進行配對<Pairwisewithidentities>"的格式能更好地突出目標序列與檢索序列之間的差別。而WebBLAST中提供的樹狀瀏覽格式則會按照搜索出的目標序列與檢索序列之間的距離不同將這些目標序列進行聚類,形成一幅樹狀圖來顯示結果。BLAST比對之后給出的每一種格式的比對結果都會有一個分值和E值。用戶也可以設定一個E值的閾值來篩選比對結果。3.3MegaBLASTMegaBLAST也是一種BLAST程序,不過它主要是用來在非常相似的序列之間<來自同一物種>比對同源性的。使用者通過網頁使用MegaBLAST進行批量比對操作,這比使用標準的BLAST程序要快10倍。MegaBLAST在NCBI基因組BLAST頁面下是默認的搜索工具,借助它能對增長迅速的TraceArchives數據庫和標準BLAST使用的數據庫進行快速檢索。NCBI還為跨物種核酸序列快速搜索提供了DiscontiguousMegaBLAST,它使用非重疊群字段匹配算法<noncontiguouswordmatch>來進行核酸比對。DiscontiguousMegaBLAST比blastx等翻譯后比對要快得多,同時它在比較編碼區時也具有相當高的敏感度。3.4GenomicBLASTNCBI在MapViewer中還為100多個物種設有GenomicBLAST。通過默認的GenomicBLAST既能對某個物種的基因組序列進行搜索,也能對其它的數據庫進行搜索,比如RefSeqs數據庫、EST數據庫等。4文獻資源4.1PubMed數據庫目前,PubMed數據庫中收錄有自1860年以來20,400種生命科學類雜志、刊物刊登過的超過1800萬條的文獻記錄。這些文獻中有980萬條摘要信息,最早的記錄可追溯至19世紀80年代,其中有870萬條可以檢索到全文。PubMed數據庫與其它Entrez數據庫都保持著密切聯系,這樣可以在不同的數據庫之間架起一座連接的橋梁。PubMed數據庫還會通過計算機自動檢索出包含相近MeSH詞匯、文獻題目以及摘要的相關文獻信息提供給用戶。默認的"AbstractPlus"輸出格式給出了該文獻的摘要信息和五篇與該文獻相關信息的簡單介紹,這樣用戶就可以獲得更多的有關資訊了。4.2PubMedCentralPubMedCentral是一個收錄生命科學領域同行評審期刊<PeerReviewedJournals>文獻的數據庫,現收錄超過160萬條全文文獻,并且僅去年一年就增長了51%。而且,包括《核酸研究》<NucleicAcidsResearch>在內的480多種期刊會為PubMedCentral提供全文文獻。所有參與PubMedCentral的出版商也都必須在文獻出版后12個月之內免費為PubMedCentral提供全文文獻。由于NIH于20XX4月7日開始執行向公眾免費開放使用的政策,故而PubMedCentral也必須免費向公眾開放使用。如此一來,用戶使用Entrez就可以搜索到PubMed和PubMedCentral中的所有文獻信息了。4.3NCBIBookshelf、NLMCatalog以及JournalsdatabaseNCBIBookshelf通過與作者和出版商合作,收錄了86種在線教科書和生物醫藥類圖書。NCBIBookshelf作為獨立于Entrez數據庫的一個單獨數據庫,它里面的信息也可以通過文本搜索或Entrez數據庫,例如PubMed、PubMedCentral、Gene和OMIM中的鏈接搜索到。NCBIBookshelf中的圖書不是象普通圖書那樣一本一本的存放的,而是按照內容將它們分成了230,000個不同的部分、章節進行儲存的。用戶瀏覽其中一個內容的時候也可以跳到該書的其它部分或者直接搜索這本書中的特定內容進行閱讀。NLMCatalog為藏書超過130萬冊的美國國立衛生圖書館<NLM>記錄設立目錄信息,包括雜志、圖書、手稿、計算機軟件、錄音文件和其它電子資源。每一條記錄都可鏈接到NLMLocatorPlus和具有相近題目或MeSH詞匯的相關文件目錄信息。Journalsdatabase<期刊數據庫>包含了每一個Entrez數據庫中的所有期刊信息。目前共收錄有超過22,000條記錄,期刊數據庫為每一份期刊都建立了ISO刊名縮寫索引、出版日期索引和NLMcatalog鏈接索引以及Entrez中引用該期刊中文獻的索引。5基因序列信息以及相關序列信息5.1數據庫5.1.1EntrezGeneEntrezGene數據庫為用戶提供基因序列注釋和檢索服務,還會鏈接到NCBI的MapViewer、EvidenceViewer、ModelMaker、BLASTLink<Blink>、proteindomainsfromtheConservedDomainDatabase<CDD>等數據庫資源以及其它與基因相關的資源。EntrezGene數據庫收錄了來自5300多個物種的430萬條基因記錄。而且,NCBI除了擁有自己的注釋工作人員之外,還在不斷從許多其它國際合作組織那里獲取新的基因注釋記錄信息。EntrezGene數據庫與PubMed中最新引文之間的鏈接是由基因注釋人員負責維護的,這項功能也被稱作GeneRIF。完整的EntrezGene數據集以及物種特異性的數據亞集可以在NCBIFTP站點中的NCBIASN.1中找到。一種可以將NCBIASN.1格式轉化成XML格式的名為ene2xml的軟件也可以到/toolbox/ncbi_tools/converters/by_program/gene2xml下載。5.1.2UniGene和ProtESTUniGene從屬于GenBank的一部分,專門收集轉錄體序列數據,包括EST序列和非冗余序列,每一條UniGene記錄都代表一個潛在的基因。UniGene收錄了GenBank中來自所有物種的將近70,000條EST序列,這些物種中包括58種動物、43種植物和真菌以及6種真核生物。現在,在構建基因表達譜芯片時都是參考UniGene中的數據來進行設計的。UniGene數據庫每周都會更新EST信息,每兩個月會更新序列信息。ProtEST作為UniGene序列的輔助確認工具會預先對序列進行BLAST比對,它所使用的比對方式是將UniGene核酸序列的6種可能翻譯蛋白質序列與模式生物蛋白質序列進行比對。5.1.3HomoloGene數據庫HomoloGene數據庫是一個在20種完全測序的真核生物基因組中自動檢索同源基因的系統,包括直系同源與旁系同源。HomoloGene的結果報告包括基因同源性和來自OMIM、小鼠基因組信息學<MouseGenomeInformatics,MGI>、斑馬魚信息網絡<ZebrafishInformationNetwork,ZFIN>、酵母基因組數據庫<SaccharomycesGenomeDatabase,SGD>、直系同源基因簇<ClustersofOrthologousGroups,COG>和果蠅數據庫<FlyBase>的基因表型信息。HomoloGene下載功能能下載HomoloGene中的轉錄體、蛋白質和基因組序列信息,還能下載基因組中特定基因的上游和下游序列。5.1.4ReferenceSequencesReferenceSequences<RefSeq>數據庫是一個收錄注釋過的非冗余轉錄體、蛋白質和基因組序列數據庫。20XX,ReferenceSequences數據庫收錄的記錄增加了40%。同年7月公布的ReferenceSequences數據庫30共收錄了來自5400種不同物種的300萬條核酸序列和560萬條蛋白質序列。用戶可以通過Entrez核酸和蛋白質數據庫搜索到RefSeq序列,也可以通過NCBIFTP站點進入RefSeq數據庫。5.1.5GenBank和其它數據庫來源的序列用戶可以通過三個Entrez數據庫——Nucleotide、EST和GenomeSurveySequence<GSS><這三個數據庫在E-Utilities中分別稱作nuccore、nucest和nucgss>搜索到GenBank中的序列。EntrezNucleotide數據庫含有除了收錄之外的GenBank中所有的序列,它還收錄有全基因組鳥槍法測序序列、第三方注釋序列<ThirdPartyAnnotationsequences>和Entrez結構數據庫中的序列。對這些記錄中編碼序列概念上的翻譯信息都收錄在了Entrez蛋白質數據庫中。EST數據庫收錄了GenBankEST中的所有數據和沒有生物學注釋信息的"單分子識別首次通過<first-passsingle-read>"的cDNA序列。同樣,GenBank中的GSS數據庫也收錄了沒有生物學注釋信息的單分子識別首次通過的基因組序列。5.2分析工具5.2.1ORFFinder、Spidey和SplignNCBI提供了幾種分析工具可以幫助用戶在基因組內發現編碼序列。OpenReadingFrame<ORF>Finder程序可以將一段DNA序列按照6種進行翻譯,然后返回某一段DNA序列中可能的ORF。Spidey工具將一組真核生物的mRNA序列與一個基因組序列進行比對,使用4種物種的RNA剪切模型<脊椎動物、果蠅、秀麗隱桿線蟲和植物>來預測RNA剪切位點。Splign是一種通過比對cDNA和基因組序列來發現剪切位點的工具,它可以在測序出現錯誤的情況下使用,還可以進行跨物種的比對。Splign使用了一種Needleman-Wunsch算法,與區域化算法<compartmentizationalgorithm>一起使用能發現可能的基因位點。用戶可以在Splign網頁上下載單獨為大批量分析而專門設計的Splign工具使用。5.2.2ElectronicPCR<e-PCR>正向e-PCR能在UniSTS數據庫收錄的超過510,000條STS標記物中搜索到與STS引物配對的序列。反向e-PCR則通過搜索基因組數據庫和轉錄體數據庫來估計基因組結合位點、擴增子大小和引物特異性。用戶可以在/pub/schuler/e-PCR上找到e-PCR的源代碼<sourcecode>。5.2.3ConservedCDSdatabase<CCDS>不同的科研小組使用他們各自的方法研究同一物種基因組時,對于基因組中的基因定位可能會得到相似但不完全相同的結論。這樣,就會對其它的科研工作者造成困擾。在所有的模式生物中,目前對人類和小鼠的基因組序列研究得最多也最透徹,因此它們最適合用來作為"標準的<consensus>"基因注釋的"實驗材料"。CCDS數據庫計劃</CCDS/>就是由NCBI、歐洲生物信息學研究院<EuropeanBioinformaticsInstitute>、韋爾科姆基金會桑格研究院<WellcomeTrustSangerInstitute>和加州大學圣克魯茲分校<UCSC>共同合作建立的標準的有關人類和小鼠基因蛋白質編碼區的數據庫,該數據庫會不斷更新來保持其高水準。到目前為止,CCDS數據庫共收錄了超過20,000條人類基因CDS注釋數據和17,500條小鼠基因CDS注釋數據。用戶可以在CCDS的網頁上使用基因名或序列ID進行搜索,還可以鏈接到EntrezGene數據庫、歷史記錄信息、轉錄體和蛋白質序列、MapViewer、EnsembleGenomeBrowser、UCSCGenomeBrowser和桑格研究院的VegaBrowser。用戶可以到/pub/CCDS/下載CCDS序列數據。6基因組信息6.1數據庫6.1.1EntrezGenomeEntrezGenome數據庫收錄了850多種微生物、3100多種病毒以及1600多種真核生物細胞器的完整基因組數據以及將近50種動物、綠色植物和真菌的700多條染色體信息,總共收錄有6200多條序列,其中有882條是去年新增的序列信息。而對于更高等的真核生物基因組,EntrezGenome數據庫會直接鏈接到NCBIMapViewer。原核生物、病毒和真核生物細胞器的基因組則可以鏈接到專門的頁面和BLAST頁面。另外還專門設有植物基因組頁面<PlantGenomesCentralWebpage>,在上面可以查詢到完整的植物基因組測序計劃、植物基因組BLAST或者MapViewer等信息。6.1.2EntrezGenomeProjectEntrezGenomeProject數據庫<Entrez基因組計劃數據庫>向用戶提供了一個有關正在進行中的大規模植物基因組測序、組裝、注釋和作圖工作的全面概況。目前,該數據庫顯示,一共對2200種植物進行了測序工作,其中750種已經完成了所有工作,700種正處于草圖組裝階段。該數據庫的規模還在不斷擴大,以至于還囊括了多個單獨的測序項目,例如病毒群體計劃<viralpopulationprojects>、對16S核糖體RNA元基因庫<16SribosomalRNAmetagenomic>等靶位點的測序計劃<targetedlocussequencingprojects>以及轉錄組計劃等。Entrez基因組計劃數據庫與其它Entrez數據庫,例如Entrez核酸數據庫和Entrez基因組數據庫以及NCBI內部或者外部資源都有廣泛的聯系。Entrez基因組計劃還為原核生物的某些特點,例如表型、活力、致病性和對生存鹽濃度、溫度、氧氣濃度、pH值等環境因素設置了索引,這對于研究原核生物的生物學家們來說無疑是一項非常有用的功能。NCBI鼓勵各個測序中心在開始他們的測序項目之前提前登記自己的項目安排,這樣就能更好的統籌安排,共享資源了。6.1.3NCBITraceArchivesTraceArchives數據庫儲存了由凝膠/毛細血管測序平臺<例如AppliedBiosystemsABI3730>測序獲得的序列數據。至今,TraceArchives數據庫包含有4500個品種的共計超過19億<12%為人類數據>的序列數據。6.1.4ShortReadArchiveShortReadArchive<SRA>數據庫里收錄的數據都是由新一代測序儀<例如Roche-454、IlluminaGenomeAnalyzer、AppliedBiosystemsSOLiDSystemplatforms>測序產生的基因序列信息。從20XX開始,SRA已經迅速累積到了1.3Tbp,共180億條小片段,約占人類基因組序列總長度的85%。SRA的出現為大家進行數據挖掘提供了更多的機會。出于方便廣大用戶使用的考慮NCBI還將為SRA數據建立索引,同時更多的輔助工具,例如搜索及比對等功能也將陸續開發出來。6.2分析工具及資源6.2.1MapViewerNCBI的MapViewer顯示了基因組集合、遺傳標記及物理標記以及相關注釋信息和比對信息等其它分析結果。MapViewer的主頁/mapview/提供了包括人類、小鼠和大鼠<Rattusnorvegicus>在內的超過100種物種的基因組數據。用戶可以看到的圖譜將根據物種的不同可能會有所不同,或許包括細胞遺傳圖譜<cytogeneticmaps>、物理圖譜<physicalmaps>和各種不同的序列圖譜。源自同一物種的多個基因組圖譜可以在同一個頁面中顯示。6.2.2ModelMaker以及EvidenceViewerModelMaker<MM>是用來構建轉錄模型的一種工具,它將通過由從頭預測法<abinitiopredictions>預測出來的外顯子以及通過與GenBank中的轉錄體數據庫EST和RefSeq比對之后得來的外顯子,與NCBI的人類基因組數據庫結合在一起來構建轉錄模型。EvidenceViewer<EV>則將所有能支持基因注釋信息正確性的序列信息證據進行了歸納總結,它采用的是將RefSeq、EST等GenBank中的轉錄體信息與基因組重疊群進行比對的方法。EV顯示了每一個外顯子的詳細比對結果,并突出顯示了其中不匹配的部分。6.2.3EntrezcancerChromosomesEntrezcancerChromosomes<Entrez癌癥染色體>數據庫包含了與人類癌癥有關的人類染色體畸變信息,例如基因缺失或轉位等。Entrez癌癥染色體數據庫由三個部分組成,即NCI/NCBISKY<SpectralKaryotyping>/M-FISH<Multiplex-FISH>和CGH<ComparativeGenomicHybridization>數據庫;美國國立癌癥研究院<NCI>為癌癥染色體畸變信息設立的Mitelman數據庫以及NCI為再發癌癥染色體畸變設立的數據庫。每一個畸變都以圖形的形式表現出來,并附之相關臨床病例信息和文獻信息。6.2.4TaxPlot、GenePlot和gMapTaxPlot可以同時給出來自兩個物種蛋白質之間的相似性以及原核生物或真核生物參考物種的完整基因組信息。與其相關的另一個工具GenePlot則可以給出一對完整微生物基因組內的片段,經可視化的缺失、轉位或倒位操作之后,其編碼蛋白質之間的相似性。gMap工具將預先計算過的微生物全基因組比較結果與BLAST比較結果以及核酸序列相似的基因組聚類結果結合在一起進行比對,然后將相似的片段以圖形化的方式表現出來。6.2.5InfluenzaGenomeSequencingProject<IGSP>IGSP<流感基因組測序計劃>為研究流感的科研工作者提供了越來越多的序列資料,他們可以借此找出流感病毒致病的遺傳性狀。到目前為止,該計劃已經得到了超過33,000條流感病毒序列。NCBI的流感病毒資源也和IGSP之間設有鏈接,還可以通過PubMed找到所有最新的有關流感病毒方面的文獻和各種在線分析工具及數據庫資源。這些數據庫包括NCBI的流感病毒序列數據庫<InfluenzaVirusSequenceDatabase>,該數據庫收錄有GenBank和RefSeq中超過70,000條流感病毒的序列。科研人員借助流感病毒資源提供的各種工具能對超過83,000條流感蛋白質序列進行分析。Entrez的生物學數據庫中還收錄有超過100條流感病毒蛋白質結構信息和350多條有關流感病毒種群研究的資料。還有一種在線流感病毒基因組注釋工具能幫助科研工作者們分析新發現的流感病毒序列并進行注釋,然后將結果通過tbl2asn等上傳工具遞交給NCBI的GenBank數據庫。6.2.6EntrezProteinClustersEntrezProteinClusters<Entrez蛋白質聚類數據庫>收錄了由完整的原核生物基因組和葉綠體基因組編碼的28萬多條已確認的RefSeq蛋白質序列,并將這些序列按照分類學的規則進行了歸類<聚類>。NCBI可以將這些蛋白質聚類信息用于基因組范圍內的比對,也可以用于簡化的BLAST——簡單的微生物蛋白BLAST<ConciseMicrobialProteinBLAST,/genomes/prokhits.cgi>比對之用。蛋白聚類數據庫還包括注釋信息、出版信息、結構域和結構信息、相關庫外鏈接和分析工具<例如多序列比對工具和系統發生分析工具>信息等。蛋白質聚類數據庫還通過GenomeProtMap</sutils/protmap.cgi>與其它基因組數據庫有鏈接。7基因型和表型信息7.1基因型和表型數據庫認識遺傳和環境因素與人類疾病之間的關系,對于幫助我們提高疾病診治水平來說具有非常重要的意義。大范圍的基因型研究能為基因組相關調查、醫療測序、分子診斷以及發現基因型和非臨床特性之間的關系等研究提供數據資料。基因型和表型數據庫<dbGaP;/sites/entrez?db=gap>是Entrez系統的一部分,它負責管理與可見特征<表型>相關的遺傳特征<基因型>。該數據庫收錄的資料來自由NIH資助的全基因組關聯分析<genome-wideassociationstudy,GWAS>結果。<詳見/grants/gwas/index.htm。>目前dbGaP數據庫收錄的數據來自25個研究項目,用戶可以通過疾病名稱或基因名稱進行搜索、瀏覽。為了保證研究項目的機密性,dbGaP數據庫只接受"去識別<de-identified>"的數據,同時還要求使用個人資料<individual-level>的研究者接受審核。不過,用戶可以不受任何限制的瀏覽研究文件、操作流程和項目問卷調查等資料。7.2dbSNPdbSNP數據庫<單核苷酸多態性數據庫>收錄的是單核苷酸多態性信息,例如單個堿基的替換、缺失或插入信息。共收錄有將近1800萬條人類SNP信息和3300萬條其它各物種的SNP信息。dbSNP數據庫還收錄確認信息、種群特異性等位基因頻率信息<population-specificallelefrequencies>和個體基因型信息。所有這些信息都可以在dbSNP數據庫的FTP站點中找到。7.3供常規臨床應用的數據庫7.3.1dbMHCdbMHC數據庫是有關主要組織相容性復合體<MHC>的數據庫。它收錄了各種MHC等位基因的變異信息,這些信息與器官移植以及個體對感染性疾病的易感性有非常重要的關系。dbMHC數據庫收錄了1000多條MHC等位基因序列以及這些等位基因在人群中出現的頻率,還收錄了人白細胞抗原<HLA>的基因型與全世界臨床造血干細胞移植成功率之間的信息。7.3.2dbLRCdbLRC數據庫則是全面收錄白細胞受體復合物<LRC>等位基因信息,主要關注LRC中的KIR基因。7.3.3dbRBCdbRBC數據庫收錄的是與紅細胞抗原或血型有關的基因及其序列信息。該數據庫是將血型抗原基因突變數據庫<BloodGroupAntigenGeneMutationDatabase>中的資源與NCBI中的相關資源整合到一起組建而成的。dbRBC數據庫里收錄的每一個基因都有詳細的信息,還有國際輸血學會<ISBT>通過等位基因命名法對血型等位基因的命名。上述這三個數據庫都帶有多序列比對工具、分析純合型或雜合型序列的工具以及DNA探針比對工具。7.4OMIMNCBI的OMIM是Entrez的一個組成部分,主要收錄人類基因和遺傳病相關信息,它由約翰霍普金斯大學<JohnsHopkinsUniversity>的VictorA.McKusick小組負責維護。OMIM數據庫收錄了疾病表型與基因的相關信息,包括對該遺傳病詳細的描述、基因名稱、遺傳方式、基因定位、基因多態性以及詳細的相關參考文獻信息。OMIM數據庫共有將近20,000條記錄,涵蓋超過12,500個已知的基因位點數據和表型數據。這些記錄還與許多其它重要資源,例如位點特異性數據庫<locusspecificdatabases>和GeneTests<>之間設有鏈接。7.5OMIAOMIA<動物在線孟德爾遺傳>數據庫是一個有關動物<除了人類和小鼠>基因和遺傳病的數據庫,由澳大利亞悉尼大學<UniversityofSydney,Australia>的FrankNicholas教授等人建立。該數據庫收錄了超過2500條記錄,其中包括文本信息、參考資料信息以及與OMIM、PubMed和EntrezGene這些數據庫之間的鏈接。8基因表達8.1GeneExpressionOmnibus<GEO>GEO<基因表達精選集>是一個儲存高通量功能基因組學數據的數據庫,這些高通量功能基因組學數據來自芯片和新一代的測序儀得到的試驗數據。GEO除了收錄基因表達數據之外還收錄其它數據,例如基因組拷貝數變異數據、基因組-蛋白相互作用數據以及基因組甲基化數據等。該數據庫既接受原始數據,也接受經過處理的數據,不過這些數據都要符合"有關芯片試驗的最小信息<minimuminformationaboutamicroarrayexperiment,MIAME>"標準。該數據庫能存儲好幾種格式的數據,包括web格式、spreadsheets格式、XML格式和純文本格式。GEO數據庫被分為兩個部分收錄在Entrez中,分別是GEOProfiles數據庫<它負責收錄一個基因在一次試驗中的定量基因表達數據>和GEO數據庫<收錄整個試驗的數據>。目前,GEO數據庫共收錄了由世界各地5000多家實驗室提交的超過10,000條試驗數據,以及300,000個樣品和對500多個物種進行表達譜測量得到的160億個基因表達豐度數據。8.2GENSATGENSAT是有關小鼠中樞神經系統基因表達譜的數據庫,這些數據是由美國神經障礙和中風研究院<NationalInstituteofNeurologicalDisordersandStroke>提供的。GENSAT儲存了小鼠大腦的組織切片圖像,這些組織切片中都含有各種標簽,例如增強的綠色熒光蛋白標簽等,這樣可以根據標簽的熒光強度來判斷基因的表達量。GENSAT共收錄了8萬多幅圖像資料,還提供搜索功能、資料下載功能、縮放功能和比對功能。8.3EntrezProbeNCBIProbedatabase<探針數據庫>是一個公共的核酸試劑數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論