GenBank數據庫檢索與其應用_第1頁
GenBank數據庫檢索與其應用_第2頁
GenBank數據庫檢索與其應用_第3頁
GenBank數據庫檢索與其應用_第4頁
GenBank數據庫檢索與其應用_第5頁
已閱讀5頁,還剩114頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

GenBank數據庫檢索與其應用第一頁,共119頁。簡介

GenBank數據庫是由美國國立生物技術信息中心(NCBI)維護的一級核酸序列數據庫。GenBank數據庫的數據來源有三種:1、直接來源于測序工作者提交的序列;2、與其它數據機構協作交換的數據;3、美國專利局提供的專利數據。第二頁,共119頁。NCBI網站網址:第三頁,共119頁。GenBank和PubMed(序列數據)檢索的比較:1、GenBank的檢索結果是序列及其注釋信息;PubMed的檢索結果是與序列數據相關的文獻信息。2、GenBank數據更新早于PubMed,GenBank數據庫的檢全率高于PubMed。3、GenBank可對序列數據進行限制檢索,而PubMed只能對文獻、雜志、作者等進行限制檢索,因而GenBank數據庫的檢準率也高于PubMed。第四頁,共119頁。檢索界面簡介第五頁,共119頁。基本檢索輸入框基本檢索界面:第六頁,共119頁。執行檢索按鈕基本檢索輸入框基本檢索界面:ras[GENE]第七頁,共119頁。點擊進入跨庫檢索第八頁,共119頁。跨庫檢索界面:ras[GENE]執行檢索按鈕第九頁,共119頁。跨庫檢索界面:第十頁,共119頁。點擊進入GenBank數據庫第十一頁,共119頁。GenBank數據庫界面:第十二頁,共119頁。GenBank數據庫界面:第十三頁,共119頁。點擊進入核苷酸序列數據庫檢索界面GenBank數據庫界面:第十四頁,共119頁。特征欄提供輔助檢索功能核苷酸序列數據庫檢索界面:第十五頁,共119頁。核苷酸序列數據庫檢索界面:第十六頁,共119頁。簡介檢索界面基本檢索功能(一)名稱、作者姓名、截詞檢索、布爾邏輯運算(二)特殊標志符檢索(五)范圍檢索(三)序列長度檢索(四)分子重量檢索第十七頁,共119頁。簡介檢索界面基本檢索功能(一)名稱、作者姓名、截詞檢索、布爾邏輯運算第十八頁,共119頁。檢索限定詞:1、基因名稱的檢索限定詞:[GENE]2、生物體名稱的檢索限定詞:[ORGN]3、作者姓名的檢索限定詞:[AUTH]第十九頁,共119頁。第二十頁,共119頁。簡介檢索界面基本檢索功能(一)名稱、作者姓名、截詞檢索、布爾邏輯運算(二)特殊標志符檢索第二十一頁,共119頁。特殊標志符的格式(核酸序列)

:2、GenBank/EMBL/DDBJ序列接受號:

(1)1個字母+5個阿拉伯數字e.g.:U12345

(2)2個字母+6個阿拉伯數字e.g.:AY123456,Af1234561、序列辨認號(GI):一串阿拉伯數字e.g.:6995995第二十二頁,共119頁。(1)mRNA記錄(NM_*):

e.g.:NM_000492(2)基因組DNA重疊群(NT_*):

e.g.:NT_000347(3)完整的基因組或染色體(NC_*):

e.g.:NC_000907(4)基因組的局部區域(NG_*):

e.g.:NG_000019(5)從人類基因組序列注釋、加工得到的序列模型記錄(XM,XP,orXR_*):

e.g.:XM_000483特殊標志符的格式(核酸序列):3、RefSeq(ReferenceSequence)序列接受號:第二十三頁,共119頁。特殊標志符的格式(核酸序列):4、

PDB序列接受號:1個阿拉伯數字+3個字母e.g.:1TUP序列接受號的檢索限定詞為[ACCN]or[ACCESSION]第二十四頁,共119頁。AF123456[ACCN]第二十五頁,共119頁。第二十六頁,共119頁。簡介檢索界面基本檢索功能(一)名稱、作者姓名、截詞檢索、布爾邏輯運算(二)特殊標志符檢索(三)序列長度檢索第二十七頁,共119頁。1510[SLEN]序列長度的檢索限定詞:[SLEN]第二十八頁,共119頁。第二十九頁,共119頁。簡介檢索界面基本檢索功能(一)名稱、作者姓名、截詞檢索、布爾邏輯運算(二)特殊標志符檢索(三)序列長度檢索(四)分子重量檢索第三十頁,共119頁。2009[MOLWT]分子重量的檢索限定詞:[MOLWT]第三十一頁,共119頁。第三十二頁,共119頁。簡介檢索界面基本檢索功能(一)名稱、作者姓名、截詞檢索、布爾邏輯運算(二)特殊標志符檢索(五)范圍檢索(三)序列長度檢索(四)分子重量檢索第三十三頁,共119頁。范圍檢索:中間用冒號連接1、序列接受號范圍檢索:

AF114696:AF114714[ACCN]2、序列長度范圍檢索:

3000:4000[SLEN]3、分子重量范圍檢索:

2002:2009[MOLWT]4、日期范圍檢索:

2005/01:2006/09/26[MDAT]or[PDAT]第三十四頁,共119頁。簡介檢索界面基本檢索功能特征欄輔助檢索限制檢索(Limits)預檢索/索引檢索(Preview/Index)檢索史管理(History)剪貼板管理(Clipboard)詳細匹配過程(Details)第三十五頁,共119頁。限制檢索預檢索/索引檢索檢索史管理剪貼板管理詳細匹配過程第三十六頁,共119頁。簡介檢索界面基本檢索功能特征欄輔助檢索限制檢索(Limits)第三十七頁,共119頁。限制檢索界面:第三十八頁,共119頁。限制檢索界面:第三十九頁,共119頁。核苷酸序列數據庫分為三個子數據庫:EST:表達序列標記數據庫GSS:基因組測序序列數據庫CoreNucleotide:包含所有未被以上兩個子數據庫收錄的核苷酸序列第四十頁,共119頁。第四十一頁,共119頁。核苷酸序列數據庫檢索界面:第四十二頁,共119頁。核苷酸序列數據庫檢索界面:第四十三頁,共119頁。限制檢索界面:第四十四頁,共119頁。限制檢索界面:第四十五頁,共119頁。檢索結果顯示界面:第四十六頁,共119頁。限制檢索范圍限制檢索(Limits):第四十七頁,共119頁。限制檢索范圍ras第四十八頁,共119頁。第四十九頁,共119頁。排除某種類型的序列第五十頁,共119頁。限制分子類型第五十一頁,共119頁。限制分子類型第五十二頁,共119頁。限制基因位點第五十三頁,共119頁。限制基因位點第五十四頁,共119頁。限制序列片段的顯示第五十五頁,共119頁。限制序列片段的顯示第五十六頁,共119頁。限制數據來源第五十七頁,共119頁。限制數據來源第五十八頁,共119頁。限制數據修訂日期第五十九頁,共119頁。限制數據修訂日期第六十頁,共119頁。第六十一頁,共119頁。簡介檢索入口基本檢索功能特征欄輔助檢索限制檢索(Limits)預檢索/索引檢索(Preview/Index)第六十二頁,共119頁。第六十三頁,共119頁。預檢索/索引檢索界面:hepatitisb索引檢索輸入框索引檢索按鈕第六十四頁,共119頁。第六十五頁,共119頁。第六十六頁,共119頁。第六十七頁,共119頁。第六十八頁,共119頁。索引檢索按鈕第六十九頁,共119頁。序列特性關鍵詞索引第七十頁,共119頁。ras[GENE]第七十一頁,共119頁。第七十二頁,共119頁。第七十三頁,共119頁。序列特性關鍵詞索引第七十四頁,共119頁。第七十五頁,共119頁。第七十六頁,共119頁。簡介檢索界面基本檢索功能特征欄輔助檢索限制檢索(Limits)預檢索/索引檢索(Preview/Index)檢索史管理(History)剪貼板管理(Clipboard)詳細匹配過程(Details)第七十七頁,共119頁。penicillin-binding第七十八頁,共119頁。第七十九頁,共119頁。mycobacteriumtuberculosis第八十頁,共119頁。第八十一頁,共119頁。第八十二頁,共119頁。第八十三頁,共119頁。#8AND#4第八十四頁,共119頁。第八十五頁,共119頁。penicillin-bindingANDmycobacteriumtuberculosis[ORGN]第八十六頁,共119頁。簡介檢索入口基本檢索功能特征欄輔助檢索檢索結果的顯示第八十七頁,共119頁。檢索結果顯示界面:第八十八頁,共119頁。選擇檢索結果的顯示格式第八十九頁,共119頁。選擇檢索結果的顯示格式第九十頁,共119頁。選擇檢索結果的顯示格式第九十一頁,共119頁。第九十二頁,共119頁。摘要格式:聯接第九十三頁,共119頁。第九十四頁,共119頁。Genbank格式:第九十五頁,共119頁。Genbank格式:第九十六頁,共119頁。Genbank格式:第九十七頁,共119頁。Genbank格式:第九十八頁,共119頁。Genbank格式:第九十九頁,共119頁。Genbank格式:第一百頁,共119頁。Genbank格式:第一百零一頁,共119頁。Genbank格式:第一百零二頁,共119頁。GenBank記錄中特性表中的主要關鍵詞:關鍵詞解釋關鍵詞解釋misc_feature生物學特性無法用特性表關鍵詞描述的序列promoter轉錄起始區misc_difference序列特性無法用特性表關鍵詞描述的序列CAAT_signal真核啟動子上游的CAAT盒,與RNA結合相關conflict同一序列在不同的研究中在位點或區域上有差異TATA_signal真核啟動子的TATA盒unsure序列不能確定的區域-35_signal原核啟動子中的-35框old_sequence該序列對以前的版本做過修訂-10_signal原核啟動子的Pribow盒variation包含穩定突變的序列GC_signal真核啟動子的GC盒modified_base修飾過的核苷酸RBS核糖體結合位點gene已識別為基因或已命名的序列區域polyA_signalRNA轉錄本的剪切識別位點misc_signal無法用信號特性關鍵詞描述的信號序列enhancer增強子第一百零三頁,共119頁。關鍵詞解釋關鍵詞解釋attenuator與轉錄終止有關的序列CDS蛋白質編碼序列terminator轉錄終止序列sig_peptide編碼信號肽的序列rep_origin雙鏈DNA復制起始區transit_peptide轉運蛋白編碼序列misc_RNA無法用RNA關鍵詞描述的轉錄物或RNA產物mat_peptide編碼成熟肽的序列prim_transcript初始轉錄本intron內含子precursor_RNA前體RNApolyA_siteRNA轉錄本的多聚腺苷酸化位點mRNA信使RNArRNA核糖體RNA5’clip前體轉錄本中被剪切掉的5’端序列tRNA轉運RNA3’clip前體轉錄本中被剪切掉的3’端序列scRNA小細胞質RNA5’UTR5’非翻譯區snRNA小核RNA3’UTRexon3’非翻譯區外顯子snoRNA加工和修飾rRNA的小核RNA第一百零四頁,共119頁。關鍵詞解釋關鍵詞解釋immunoglobulin_relatedrepeat_unit單個的重復元件C_region免疫相關蛋白上的不變區LTR長末端重復序列D_segment免疫球蛋白重鏈的可變區,T細胞受體β鏈Satellite衛星重復序列J_segment免疫球蛋白重鏈、輕鏈以及T細胞α、β、γ的結合鏈misc_binding無法描述的核酸序列結合位點N_region插入重排免疫球蛋白片段間的核苷酸primer_bind復制、轉錄的引物結合位點S_region免疫球蛋白重鏈的開關區protein_bind蛋白質結合區V_region編碼免疫球蛋白的可變區N末端的序列STS測序標簽位點V_segment編碼免疫球蛋白的可變區的序列misc_recomb無法用重組特性關鍵詞描述的重組事件repeat_region基因組中所包含的重復序列iDNA通過重組所消除的DNA第一百零五頁,共119頁。關鍵詞解釋關鍵詞解釋misc_structure無法用結構關鍵詞描述的核酸序列高級結構或構型stem_loop發夾結構D_loop線粒體中DNA中的取代環GenBank記錄中特性表中的限定詞:限定詞含義限定詞含義/allele=給定基因的等位基因/codon_start=相對于序列第一個堿基,編碼序列密碼子的偏移量/bound_moiety=嵌合范圍/country=DNA樣本的來源國/cell_type=獲得序列的細胞類型/db_xref=其他數據庫信息的交叉索引號/citation=已被引用的參考文獻數/direction=DNA復制方向/clone_lib=獲得序列的克隆文庫/environmental_sample=序列直接從環境材料中獲得而沒有指明來源物種第一百零六頁,共119頁。限定詞含義限定詞含義/exception=指明DNA序列未按通常的生物學規律翻譯,如RNA編輯/PCR_conditi-ons=描述PCR的反應條件/frequency=在種群中發生變異的頻率/pop_variant=獲得序列的群體變異種名稱/germline如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于未重排DNA/product=序列編碼產物的名稱/insertion_seq=序列來源于某種插入元件/anticodon=tRNA反義密碼子的位置及它所編碼的氨基酸/isolate=序列來源的生物個體/cell_line=獲得序列的細胞系/lab_host=為擴增序列來源物種所用的實驗室宿主/chromosome=獲得序列的染色體/macronuclear指明DNA來源于染色體分化的大核期/clone=獲得序列的克隆子/note=評論及附加信息/codon=指出與參考密碼子不同的密碼子/organelle=獲得序列的細胞器/EC_number=序列產物的酶學編號第一百零七頁,共119頁。限定詞含義限定詞含義/cons_splice=區分內含子剪切位點和“5‘-GT.AG-3'”剪切位點/map=相關特性在基因圖譜上的位置/cultivar=所獲序列植物的栽培變種/mod_base=被修飾堿基的簡寫/dev_stage=序列來源于某種生物的特定發育階段/number=從5’→3’注明遺傳元件的順序/evidence=序列特性來源于實驗還是推理/organism=提供測序用遺傳物質的物種的科學名稱/focus指出在記錄中的來源特性在其他物種中還有不同的來源特性/phenotype=序列特性所導致的表型/function=序列所代表的功能/plasmid=獲得序列的質粒名稱/haplotype=序列來源于某種物種的單倍體/protein_id=蛋白質的檢索號/isolation_sou-rce=描述序列來源物種的生理、環境和地理信息/proviral整合在基因組中的前病毒/label=序列特性的俗名/rearranged如果序列是DNA并來源于免疫球蛋白家族,則表示該序列來源于重排DNA第一百零八頁,共119頁。限定詞含義限定詞含義/rpt_family=重復序列/transposon=轉座子/rpt_unit=指明重復區域的重復元件構成/variety=獲得序列的生物變種/serotype=同一物

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論