生物信息學公開課一等獎優質課大賽微課獲獎課件_第1頁
生物信息學公開課一等獎優質課大賽微課獲獎課件_第2頁
生物信息學公開課一等獎優質課大賽微課獲獎課件_第3頁
生物信息學公開課一等獎優質課大賽微課獲獎課件_第4頁
生物信息學公開課一等獎優質課大賽微課獲獎課件_第5頁
已閱讀5頁,還剩57頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、生物信息學第二章:序列采集和存放第1頁中心法則DNA:Deoxyribonucleic acid,脫氧核糖核酸;RNA:RiboNucleic Acid,核糖核酸;第2頁堿基第3頁核苷酸,Ribonucleotide 第4頁脫氧核苷酸Deoxyribonucleotide第5頁雙脫氧核糖核苷酸Dideoxyribonucleotide第6頁DNA結構第7頁RNA結構第8頁氨基酸結構第9頁氨基酸性質及分類第10頁氨基酸周期表第11頁標準密碼子第12頁本章內容提要1. DNA測序2. 序列數據存放核酸序列數據庫蛋白質序列數據庫基因組數據庫3. 序列數據文件格式第13頁1. DNA測序DNA一次連續

2、測序長度約為500bp;EST (Expressed sequence tag) 測序:細胞中mRNA反轉錄成cDNA,方向不定測序;GSS (Genome Survey Sequences,基因組勘測序列):類似于ESTs,起源基因組;HTG (High-throughput genome sequences,高通量基因組序列):高通量、還未完工DNA序列;第14頁DNA 測序試驗方法(末端終止法)CATddGTPddTTPddATP(D)第15頁第16頁第17頁使用寡核苷酸引物連續測序第18頁基因組測序:兩種方案策略1. 基因圖譜法:DNA片段在染色體上位置、方向已知。首先染色體被打斷成1

3、50200kbp左右大片段,然后克隆到BACs (Bacterial Artificial Chromosome)中,再深入隨機打斷,克隆,測序,依靠計算機組裝成長序列(contig) 。2. “鳥槍法”(shotgun):DNA片段在染色體上位置和方向未知。全基因組隨機打斷成小片段,克隆,雙向測序,計算機組裝成長序列。第19頁人類基因組計劃 基因組圖譜:遺傳圖譜,物理圖譜 遺傳圖譜(genetic map):連鎖圖譜,顯示所知基因和/或遺傳標識相對距離位置與次序。物理圖譜(physical map):表示一些基因和/或遺傳標識之間在基因組上準確位置和距離(如間隔bp數目)圖譜。第20頁第21

4、頁大規模測序方法第22頁2. 序列數據存放核酸序列數據庫國際三大核酸序列數據庫:GenBank, EBML, DDBJRefSeq: The Reference Sequence DatabasedbEST: Expressed Sequences Tags數據庫UniGene等蛋白質序列數據庫UniProtSwiss-prot & TrEMBL, PIR基因組數據庫: Ensembl第23頁核酸數據庫數據增加第24頁GenBank由美國國立衛生研究院NIH下屬國立生物技術信息中心NCBI建立。聚集并注釋了全部公開核酸以及蛋白質序列。每個統計代表了一個單獨、連續、帶有注釋DNA或RNA片段。第

5、25頁GenBank中測序最多20個物種161.0版,第26頁EMBL核酸序列數據庫EMBL-EBI (European Bioinformatics Institute)維護;http:/www.ebi.ac.uk/embl/第27頁NIG (National Institute of Genetics)CIB (Center for Information Biology)http:/www.ddbj.nig.ac.jp/index-e.htmlDDBJ第28頁INSDC1998年,GenBank、EMBL和DDBJ共同成立了國際核酸序列數據庫協會 (International Nucle

6、otide Sequence Database Collaboration,INSDC)三大核酸數據庫之間天天將新測定或更新數據進行交換共享,確保數據信息完整與同時,每兩個月更新一次版本。/第29頁第30頁三大數據庫之間聯絡第31頁RefSeq數據庫1. 提供非冗余,高質量,經檢驗校正序列信息;2. 包含染色體、基因組(細胞器、病毒、質粒)、蛋白質、RNA等; 序列文件標識符:mRNA序列:NM_123456非編碼RNA:NR_123456蛋白質序列: NP_123456 /RefSeq第32頁第33頁RefSeq統計特征截然不一樣Accession號區分于其它GenBank命名格式序列,前綴

7、是兩個字母加下劃線 _;在Comment區域顯示起源;使用正式命名;包含dbxrefs特征;蛋白序列在DBSOURCE區域標示 REFSEQ第34頁GenBank VS. RefSeq第35頁dbEST: 表示序列標簽數據庫最多20個物種:.08,總序列45,660,524條/dbEST/第36頁UniGene: An Organized View of the Transcriptome為每一個基因創造一個唯一條目,搜集這個基因全部ESTs/unigene第37頁Swiss-Prot & TrEMBL 最早廣泛使用蛋白數據庫;歐洲最主要蛋白序列數據庫;http:/www.expasy.ch/

8、sprot/SIB(Swiss Institute of Bioinformatics)可由ExPASy(Expert Protein Analysis System)系統訪問;全部序列條目均經過有經驗分子生物學家和蛋白質化學家審核,所以又稱為蛋白質教授庫。第38頁TrEMBL vs. GenPeptTrEMBL (Translation of EMBL):計算機注釋Swiss-Prot分支數據庫,從EMBL庫中cDNA序列翻譯得到氨基酸序列數據庫。GenPept:由GenBank翻譯得到蛋白質序列,與TrEMBL類似,這兩個數據庫中序列錯誤率較大,都有較大冗余度。第39頁PIR1984年,美

9、國國家醫學研究基金會(NREF)正式開啟蛋白質信息資源(Protein Information Resource, PIR)計劃;美國最主要蛋白序列數據庫;非冗余、高質量注釋、全方面分類;PIR數據庫按照數據性質和注釋層次分為PIR1、PIR2、PIR3和PIR4。PIR1中序列已經驗證,注釋最為詳盡。/第40頁UniProtUniversal Protein Resource: Swiss-prot(TrEMBL), PIR兩大蛋白數據庫整合體;收錄蛋白質序列目錄最廣泛、功效注釋最全方面數據庫;包含三個子庫:UniProtKB(UniProt Knowledgebase)UniRef(Uni

10、Prot Reference Clusters)UniParc(Uniprot Archive)第41頁第42頁UniProtKBUniProt Knowledgebase: Release 15.4 , 16-Jun- ,包含:Swiss-Prot Release 57.4 : 497293 entries TrEMBL Release 40.4 : 9145906 entries 包含蛋白質序列全方面信息,提供準確、豐富序列與功效注釋。統計以6位字母和數字組成,例:Q5K8D3 第43頁第44頁Swiss-Prot Release 57.7第45頁第46頁TrEMBL Release 40

11、.4第47頁較早基因組數據庫- GDB為人類基因組計劃(HGP)保留和處理基因組圖譜數據。GDB目標是構建關于人類基因組百科全書,除了構建基因組圖譜之外,還開發了描述序列水平基因組內容方法,包含序列變異和其它對功效和表型描述。第48頁基因組數據庫搜集一些生物整個基因組序列數據庫;基因組計劃Human Genome Projecthttp:/www.sanger.ac.uk/HGP/Sequencing Genomics Projectshttp:/www.sanger.ac.uk/Projects/ 從GenBank中選擇同一物種核酸信息組成二級庫;第49頁The Ensembl projec

12、t produces genome databases for vertebrates and other eukaryotic species, and makes this information freely available online.EMBL-EBI和Sanger研究所共同開發。/基因組數據庫-Ensembl第50頁3. 序列數據文件格式DNA/RNA/氨基酸代碼標識GenBank數據格式EMBL & UniProt數據格式FASTA 數據格式第51頁DNA代碼氨基酸代碼第52頁GenBank數據文件格式第53頁GenBank數據文件格式第54頁GenBank數據文件格式子庫Locus名字定義 (標題)修改日期序列類型mRNA (= cDNA)rRNAsnRNADNA序列長度檢索號Genbank號序列形狀第55頁GenBank數據類型第56頁GenBank數據文件格式第57頁GenBank數據文件格式第58頁EMBL(UniProt)數據格式第59頁EMBL和GenBank數據格式對比第60頁FASTA格式第61頁FASTA格式1I60:A|PDBID|CHAIN|SEQUENCEMKLCFNEATTLENSNLKLDLELCEKHGYDYIEIRTMDKLPEYLKDHSLDDLAEYFQTHHIKPLALNALVFFNNRDEKG

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論