關鍵詞或詞組為基礎的數據庫檢索(I)課件_第1頁
關鍵詞或詞組為基礎的數據庫檢索(I)課件_第2頁
關鍵詞或詞組為基礎的數據庫檢索(I)課件_第3頁
關鍵詞或詞組為基礎的數據庫檢索(I)課件_第4頁
關鍵詞或詞組為基礎的數據庫檢索(I)課件_第5頁
已閱讀5頁,還剩36頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第三章 關鍵詞或詞組為基礎的數據庫檢索(I)生物信息學第三章 生物信息學檢索數據庫的方法 用關鍵詞或詞組進行數據庫檢索 (Text-based database searching) 用核苷酸或蛋白質序列進行數據庫檢索 (Sequence-based database searching)Gene nameAuthorAccession numberDatabase檢索數據庫的方法 用關鍵詞或詞組進行數據庫檢索 用核苷酸或關鍵詞或詞組為基礎的數據庫檢索關鍵詞名詞、描述性詞、詞組序列注冊號 (Accession number)檢索體系NCBI EntrezSequence Retrieval S

2、ystem (SRS)Integrated database retrieval system (DBGET)Trends in Biotechnology 1998, 16 (supplement 1):3-5.最準確可靠關鍵詞或詞組為基礎的數據庫檢索關鍵詞名詞、描述性詞、詞組檢索檢索須知(1) 連接詞 AND, OR, NOT(Boolean operators)rice AND enzyme (AND為缺省值,可略去)rice AND enzyme NOT kinaseretrotransposon OR retroelement注意事項:1、AND, OR, NOT must be e

3、ntered in UPPERCASE2、Boolean operators are processed in a left-to-right sequencerice AND (microarray OR expression profile)rice AND microarray OR expression profile3、The order can be changed by enclosing individual concepts in parentheses (processed first)PubMed27000 records 504 records 檢索須知(1) 連接詞

4、AND, OR, NOT(Boo用引號將兩個單詞組成一個詞組16S rRNA = 16S AND rRNA“16S rRNA”pseudopod* =pseudopod OR pseudopodia OR pseudopodium 檢索須知(2)Nucleotide 16S rRNA “16S rRNA”380000 sequences 3300000 sequences exact match wild card, *, 放在單詞后使檢索范圍擴大,但專一性降低 表示范圍, :, 連接前后關鍵詞,限定范圍110:500Sequence Length 2009/3/1:2009/9/30Publ

5、ication Date 用引號將兩個單詞組成一個詞組16S rRNA = 16S A1. Entrez/gquery/NCBI 的檢索體系優點:三種檢索體系中最容易操作的體系,幫助文檔完備Entrez Help1. Entrezhttp:/www.ncbi.nlm.Entrez可對6大類40個數據庫進行檢索Nucleic Acids Research 2013, 41:D8-D20Entrez可對6大類40個數據庫進行檢索Nucleic AEntrez可對6大類40個數據庫進行檢索針對基因組已測序完成的物種針對GenBank中具有大于7萬條EST的物種Prokaryotic, chlorop

6、last, mitochondrial, virus, protist, plant針對17個廣泛研究的模式生物Entrez可對6大類40個數據庫進行檢索針對基因組已測序完Entrez系統中數據庫之間的連接NCBI主頁選擇“All Databases”或Entrez主頁,輸入關鍵詞各個數據庫中檢索到的信息數量點擊相應數據庫查看信息目錄,每一條信息與其它數據庫的相關信息鏈接檢索方法(1):跨庫檢索 (cross-database search)Entrez系統中數據庫之間的連接NCBI主頁選擇“All 檢索方法(2):選擇數據庫檢索NCBI主頁選擇數據庫,輸入關鍵詞檢索到的信息目錄,每一條信息與

7、其它數據庫的相關信息鏈接查看信息內容檢索方法(2):選擇數據庫檢索NCBI主頁選擇數據庫,輸入關序列數據庫的搜索精簡搜索結果查詢insulin基因的序列不是想要的結果!如何精簡?序列數據庫的搜索精簡搜索結果查詢insulin基因的序列精簡搜索結果的方法1:使用Limits精簡搜索結果的方法1:使用Limits查詢人(human)的insulin基因的序列關鍵詞 查詢范圍: insulin title human organism 精簡搜索結果的方法2:使用Advanced search查詢人(human)的insulin基因的序列關鍵詞 查詢如何定義查詢范圍?LOCUS DQ176424 19

8、80 bp DNA linear PLN 12-MAR-2006DEFINITION Oryza sativa (indica cultivar-group) pathogen-induced defense-responsive protein 8 (DR8) gene, complete cds.ACCESSION DQ176424VERSION DQ176424.1 GI:73918052KEYWORDS HTG.SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota; Viridipla

9、ntae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP clade; Ehrhartoideae; Oryzeae; Oryza.REFERENCE 1 (bases 1 to 1980) AUTHORS Wang,G., Ding,X., Yuan,M., Qiu,D., Li,X., Xu,C. and Wang,S. TITLE Dual function of rice OsDR8 gene in disease resist

10、ance and thiamine accumulation JOURNAL Plant Mol. Biol. 60 (3), 437-449 (2006) PUBMED 16514565gbdiv_plnPropertiesTitleModification Date1000:2000Sequence LengthAccessionGI任意搜索范圍:Xa21All Fieldsbiomol_genomicProperties biomol_mrna: mRNAbiomol crna: cRNAPublication Date:記錄公開日期Keyword: EST GSS HTG HTC TP

11、A TSAOrganismAuthorJournal注意:關鍵詞和字段名(field)均不區分大小寫如何定義查詢范圍?LOCUS DQ176424 ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatcFEATURES Loca

12、tion/Qualifiers source 1.646 /organism=Dicathais orbita /organelle=mitochondrion /mol_type=mRNA /db_xref=taxon:69583 /clone=20006E09 /note=mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization CDS 646 /gene=COXI /codon_start=1 /transl_table=5 /product=cytochrome oxi

13、dase subunit I /protein_id=ACT34372.1 /db_xref=GI:253740054 /translation=GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA 第四章講述使用序列進行檢索Feature Key: promoter, mRNA, CDS, exon, intron, polyA_signalCOXIGene Namegene_in_mitochondrionProperties如何定義查詢

14、范圍?ORIGIN FEATURES humanORGN AND 50SLEN:60SLEN AND 1999MDAT 精簡搜索結果Aim: Find all human nucleotide sequences with the poly(A) signal. 不同數據庫的Search fields不同,詳見Limits/Advanced選項!j mol evolJOUR AND drosophilaORGN polyA_signal“FKEY AND humanORGN Aim: Find all human protein sequences with lengths between 5

15、0 and 60 amino acids that were entered into the database during 1999. Aim: Find Drosophila population studies published in the Journal of Molecular EvolutionSearch Field Descriptions for Sequence DatabasehumanORGN AND 50SLEN:60SL查詢人insulin基因的RefSeq序列精簡搜索結果的方法3:直接輸入搜索字段自動將俗名轉換為學名查詢人insulin基因的RefSeq序列

16、精簡搜索結果的方法查詢人insulin基因的RefSeq序列精簡搜索結果的方法4:組合多次搜索結果查詢人insulin基因的RefSeq序列精簡搜索結果的方法使用Clipboard臨時收集多條序列永久保存收集的序列需要注冊,然后Send to Collections使用Clipboard臨時收集多條序列永久保存收集的序列需要第三章 關鍵詞或詞組為基礎的數據庫檢索(II)生物信息學第三章 生物信息學文獻數據庫Pubmed的搜索 /PubMed/美國國家醫學圖書館的數據庫數據來源MEDLINE:已經規范處理的數據,已標注MeSH Terms,記錄標有pubmed-indexed for medli

17、neIn Process Citations:尚未經規范處理的數據,記錄標有pubmed-in processPublisher-Supplied Citations:由出版商提供的電子文獻,記錄標有PubMed-as supplied by Publisher搜索結果舉例文獻數據庫Pubmed的搜索 http:/Pubmed自動將檢索詞翻譯為MeSH詞匯使用MeSH詞匯能獲得更加全面、準確的結果Pubmed自動將檢索詞翻譯為MeSH詞匯使用MeSH詞匯能精簡PubMed搜索結果的方法:使用AdvancedPubMed數據庫的搜索12huazhong agricultural universi

18、tyAffiliation精簡PubMed搜索結果的方法:使用AdvancedPubMPubMed數據庫的字段:Affiliation ADArticle Identifier AIDAll Fields ALLAuthor AUBook bookComment CorrectionsCorporate Author CNCreate Date CRDTCompletion Date DCOMEC/RN Number RNEditor EDEntrez Date EDATFilter FILTERFirst Author Name 1AUFull Author Name FAUFull Inv

19、estigator Name FIRGrant Number GRInvestigator IRISBN ISBNIssue IPJournal TALanguage LALast Author LASTAULocation ID LIDMeSH Date MHDAMeSH Major Topic MAJRMeSH Subheadings SHMeSH Terms MHModification Date LRNLM Unique ID JIDOther Term OTOwnerPagination PGPersonal Name as Subject PSPharmacological Act

20、ion PAPlace of Publication PLPMID PMIDPublisher PUBNPublication Date DPPublication Type PTSecondary Source ID SISubset SBSupplementary ConceptNMText Words TWTitle TITitle/Abstract TIABTransliterated Title TTUID PMIDVersionVolume VIWatson J author 1953 publication date nature journalWatson J AU 1953

21、DP nature TASearch Field Descriptions and Tags for Pubmed精簡PubMed搜索結果的方法:組合多個搜索字段PubMed數據庫的字段:Affiliation AD小技巧:通過添加“&report=imagesdocsum”能搜索圖片/pmc/?term=rice+root&report=imagesdocsumPubMed Discovery Tools小技巧:通過添加“&report=imagesdocsum”如果已知文獻部分信息:單篇文獻匹配器(Single Citation Matcher): /pubmed/citmatch多篇文獻

22、匹配器(Batch Citation Matcher): /pubmed/batchcitmatch如果已知文獻部分信息:單篇文獻匹配器(Single Cita如何自動獲得最近更新的結果?如何自動獲得最近更新的結果?Google學術搜索/schhp?hl=zh-CNGoogle學術搜索http:/scholar.googl檢索、管理和引用文獻的工具 檢索、管理和引用文獻的工具 http:/www.endno2. SRS (Sequence Reterieval System)http:/srs.ebi.ac.uk/HelpEuropean Bioinformatics Institute (E

23、BI) 的傳統檢索體系優點:檢索面寬缺點:操作復雜注意:目前EBI提供的SRS功能正在逐步廢除,但世界上仍有很多鏡像站點可以使用:德國http:/www.dkfz.de/srs/意大利http:/bioinfo.ceinge.unina.it/srs7131/EBI新版的檢索體系:EBI search2. SRS (Sequence Reterieval S17大類194個數據庫與 SRS 體系相連Literature, Bibliography and Reference databasesNucleotide sequence databasesUniprot Universal Prot

24、ein ResourceOther protein sequence databasesDeprecated Protein DatabasesNucleotide related databasesProtein function databasesProtein structure databasesEnzymes, reactions and metabolic pathway databases Mutation and SNP databasesGene ontology resourcesBiological Resources CataloguesMapping database

25、sOther databasesUser owned databasesApplication result databasesEMBOSS result databases17大類194個數據庫與 SRS 體系相連Literatur檢索方法(1):快速檢索(Quick search)操作簡單,檢索數據庫有限適用于目標明確的檢索在SRS主頁選擇檢索類別,輸入關鍵詞檢索到的信息目錄,每一條信息與其它數據庫的相關信息鏈接查看信息內容檢索方法(1):快速檢索(Quick search)操作簡單檢索方法(2):高級檢索(advanced search)操作稍微復雜,可以檢索所有數據庫適用于范圍廣泛的檢

26、索在SRS主頁點擊“Library Page”在“Library Page”網頁選擇數據庫,然后點擊“Query Form”在“Query Form”網頁輸入關鍵詞檢索檢索到的信息目錄,每一條信息與其它數據庫的相關信息鏈接檢索方法(2):高級檢索(advanced search)操3. DBGET (Integrated database retrieval system)http:/www.genome.jp/dbget/日本GenomeNet的檢索體系優點:與 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相連 操作較SRS

27、簡單缺點:檢索面較 SRS 窄DBGET與40多個數據庫相連DBGET檢索體系中數據庫之間的連接3. DBGET (Integrated database檢索方法(1):單庫檢索(basic search)在DBGET主頁選擇一個數據庫輸入關鍵詞檢索查看檢索到的信息目錄查看信息詳細內容檢索方法(1):單庫檢索(basic search)在DBG檢索方法(2):跨庫檢索 (LinkDB)在DBGET主頁點擊“LinkDB”在查詢網頁選擇數據庫輸入關鍵詞檢索(數據庫:編號)結果檢索方法(2):跨庫檢索 (LinkDB)在DBGET主頁點檢索時如果所得信息與預期不符,需仔細檢查:數據庫不同的數據庫包含不同的內容,檢索前需弄清數據庫所包含數據的內容和范圍關鍵詞關鍵詞的拼寫是否正確關鍵詞的使用是否合乎主流 retrotransposonretro-transposon是否使用了過多的關鍵詞,以至于檢索范圍太窄。通常先使用最主要的關鍵詞搜索,如果結果過多再逐步縮小范圍最后的提醒:檢索時如果所得信息與預期不符,需仔細檢查:數據庫最后的提醒:生物信息學第三章 關鍵詞或詞組為基礎的數據庫檢索(上機操作)生物信息學第三章 4、自習資源DBGET Search4、自習資源DBGET Search5、上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論