




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三講 轉錄組學1主要內容 RNA的種類和作用 RNA研究方法 高通量技術研究轉錄組學的策略 轉錄組學研究進展 microRNA研究2RNA是解讀基因組的關鍵是解讀基因組的關鍵RNAProteinDNA3轉錄(轉錄(transcription) 生物體以生物體以DNA為模板合成為模板合成RNA的過程的過程 。 轉錄轉錄RNADNA 4 轉錄(Transcription):遺傳信息由DNA轉換到RNA的過程。作為蛋白質生物合成的第一步,轉錄是mRNA以及非編碼RNA(tRNA、rRNA等)的合成步驟。 以特定的DNA片段作為模板,以DNA依賴的核糖核酸聚合酶(RNA聚合酶或RNA合成酶)作為催化
2、劑而合成前mRNA的過程。 mRNA轉錄時,DNA分子雙鏈打開,在RNA聚合酶的作用下,游離的4種核糖核苷酸按照堿基互補配對原則結合到DNA單鏈上,并在RNA聚合酶的作用下形成單鏈mRNA分子。 轉錄本:transcript。也稱為剪切體。一條基因通過不同剪接可構成不同的轉錄本。5參與轉錄的物質參與轉錄的物質原料原料: NTP(ATP, UTP, GTP, CTP)模板模板: DNA酶酶: RNA聚合酶(聚合酶(RNA polymerase, RNA-pol)其他蛋白質因子其他蛋白質因子6一、RNA的種類和作用 1. RNA的種類 2. 各類RNA的作用7RNA的常見種類 1.核糖體RNA(r
3、RNA) 2.轉運RNA(tRNA) 3.信使RNA (mRNA)8RNA的其他種類 1.不均一核RNA(hnRNA) 2.小核RNA(snRNA) 3. 核仁小RNA(snoRNA) 4.小胞質RNA(scRNA/7s-RNA) 5. microRNA 6.轉移-信使RNA(tmRNA) 7.端粒酶RNA 8.反義RNA 9核糖體RNA(rRNA)1. rRNA是核糖體的組成成分 rRNA一般與核糖體蛋白質結合在一起,形成核糖體(ribosome) 如果把rRNA從核糖體上除掉,核糖體的結構就會發生塌陷。 2. 定位(起始翻譯) 16 S的rRNA3端有一段核苷酸序列與mRNA的前導序列是互
4、補的,這有助于mRNA與核糖體的結合,進而起始翻譯。 核糖體RNA,原核生物包括5s,16s,23s,真核生物包括5s,5.8s,18s和28s,而每種rRNA各自有各自的功能。10轉運RNA(tRNA) 在蛋白質合成中作為氨基酸的載體 合成i蛋白質的原材料20種氨基酸與mRNA的堿基之間缺乏特殊的親和力。因此,必須用一種特殊的RNA轉運RNA(tRNA)把氨基酸搬運到核糖體上,tRNA能根據mRNA的遺傳密碼依次準確地把它攜帶的氨基酸連結起來形成多肽鏈。 11信使RNA(mRNA) 作為蛋白質合成時的模板 mRNA是以DNA的一條鏈為模板,以堿基互補配對原則,轉錄而形成的一條單鏈。其功能就是
5、把DNA上的遺傳信息精確無誤地轉錄下來,然后再由mRNA的堿基順序決定蛋白質的氨基酸順序,完成翻譯,合成蛋白質。 12不均一核RNA(hnRNA) 概念:在真核生物中,轉錄形成的前體RNA中含有大量非編碼序列,大約只有25%序列經加工成為mRNA,最后翻譯為蛋白質。而因為未經加工的前體未經加工的前體mRNA(pre-mRNA)在分子大小上差別很大,所以通常稱為不均一核RNA 。 hn-RNA在受到加工之后,移至細胞質,作為mRNA而發揮其功能。而大部分的hnRNA在核內與各種特異的蛋白質形成復合體而存在著。 13小核RNA(snRNA) 概念:小核小核RNA,也見譯為核內小核內小RNA,是含有
6、100到300堿基的RNA,它是真核生物轉錄后加工過程中RNA剪接體的主要成分。 功能:它參與真核生物細胞核中RNA的加工。snRNA和許多蛋白質結合在一起成為小核核糖核蛋白,參與信使RNA前體(也就是hnRNA)的剪接,使后者成為成熟mRNA。 14核仁小RNA(snoRNA) 概念:概念:核仁小分子RNA是一大類RNA分子,其大小一般在幾十到幾百個核苷酸,它們能與特定的蛋白質(如自身免疫抗原等)相結合生成snoRNP,在細胞中穩定存在,并且富集于核仁區,所以被稱為核仁小分子RNA。 功能:負責rRNA的加工(切割和修飾) ,參與核糖體的生物合成。15小胞質RNA(scRNA/7s-RNA)
7、 存在于細胞質中的小RNA分子(如信號識別顆粒組分中含有的7sRNA),是蛋白質內質網定位合成的信號識別體的組成。16小RNA分子 有些小RNA分子能直接調控某些基因的開關從而控制細胞的生長發育并決定細胞分化的組織類型 小RNA分子本身又包含了若干類RNA,根據小RNA 的生成、結構和功能大約可分為以下三類: miRNA (microRNA) siRNA (small interfering RNA) 其他小RNA17microRNAmicroRNA 概念: MicroRNAs (miRNAs)是一種大小約2123個堿基的單鏈小分子RNA是由具有發夾結構的約70-90個堿基大小的單鏈RNA前體
8、經過Dicer酶加工后生成。不同于siRNA,但是和siRNA密切相關。 功能:microRNA通過與相應的蛋白結合,形成一個“RNA誘導的轉錄沉默復合體”。該復合體主要有4個作用:1.降解靶mRNA;2.抑制mRNA的翻譯;3.在細胞核內募集組蛋白脫乙酰化酶等因子,沉默DNA的表達;4.擴增相應的microRNA。 對一部分miRNAs的研究分析提示:miRNAs參與生命過程中一系列的重要進程,包括早期發育,細胞增殖,細胞凋亡,細胞死亡,脂肪代謝和細胞分化。18 第一個被確認的miRNA在線蟲中首次發現的lin-4 和let-7 ,可以通過部分互補結合到目的mRNA靶的3非編碼區(3UTRs
9、),以一種未知方式誘發蛋白質翻譯抑制,進而抑制蛋白質合成,通過調控一組關鍵mRNAs的翻譯從而調控線蟲發育進程。 繼線蟲之后,隨后多個研究小組在包括人類、果蠅、植物等多種生物物種中鑒別出數百個miRNAs。 19轉移-信使RNA(tmRNA) tmRNA是一類具有類似是一類具有類似tRNA分子分子和和mRNA分子雙分子雙重功能重功能的小分子的小分子RNA,它在一種特殊的翻譯模式,它在一種特殊的翻譯模式反式翻譯模式反式翻譯模式過程中發揮重要作用。最近又過程中發揮重要作用。最近又發現它與基因的表達調控及細胞周期的調控等發現它與基因的表達調控及細胞周期的調控等生命過程密切相關。生命過程密切相關。 反
10、式翻譯是細菌體內一種修復翻譯水平上受阻的遺傳信息表達過程的機制。20端粒酶RNA 端粒酶是一種逆轉錄酶,是染色體端粒的RNA序列。 功能:端粒酶是真核生物端粒復制的模板,它可以 使用其部分RNA作為模板來合成端粒重復單元。在大多數真核生物中,染色體末端DNA的逐步丟失會被端粒酶所抑制。在具有端粒酶活性的細胞內,它的任務是作為反轉錄的模板然后加在端粒的末端以解決染色體因復制而變短的問題。這種酶在大多數細胞里是沒有活性的,但在某些腫瘤細胞,轉化細胞,干細胞以及生殖細胞里活性較高。 21反義RNA(antisenseRNA) 反義RNA(antisenseRNA),可通過與靶位序列互補而與之結合的R
11、NA,或直接阻止靶序列功能,或改變靶部位構象而影響其功能。22RNA分析方法23 mRNA檢測技術核酸雜交技術原位雜交逆轉錄PCR (Reverse transcription PCR,RT-PCR)RACE24northern blot25 放射性同位素標記物-32P-dCTP靈敏度達0.01pg 非放射性標記物地高辛靈敏度達0.1pgDIG-dUTP-通過酶促反應摻入到DNA/RNA中去制成探針-雜交-加抗地高辛-酶的復合物加底物顯色探針制備26探測不同條件下的基因表達變化B. WITEK-ZAWADA,200328S rRNA18S rRNA27 FISH:Fluorescence In
12、 Situ Hybridization原位雜交28原位雜交Moroz LL, 20062930RT-PCR是將RNA的反轉錄(RT)和cDNA的聚合酶鏈式擴增(PCR)相結合的技術。首先經反轉錄酶的作用從RNA合成 cDNA,再以cDNA為模板,擴增合成目的片段。RT-PCR31轉錄本轉錄本All transcripts All mRNAs32DNARNA蛋白質基因組學RNA組學蛋白質組學33轉錄組 轉錄組概念由Velculescu等在1995年首次提出。 轉錄組:廣義上指一個細胞內基因組DNA轉錄得到的所有轉錄產物以及轉錄物在細胞特定發育時期或特定生理條件下的表達水平,包括編碼RNA(mRN
13、A)和非編碼RNA(如tRNA、rRNA、snRNA、miRNA等),狹義上指所有mRNA的集合。 轉錄組研究是基因功能及結構研究的基礎和轉錄組研究是基因功能及結構研究的基礎和出發點,是解讀基因組功能原件和揭示細胞出發點,是解讀基因組功能原件和揭示細胞及組織分子組成所必需的。及組織分子組成所必需的。34 轉錄組的特點:受到內外多種因素的調節,因而是動態可變的。能夠揭示不同物種、不同個體、不同細胞、不同發育階段及不同生理病理狀態下的基因差異表達信息。35 轉錄組學(Transcriptomics):研究細胞在某一功能狀態下所含mRNA的類型與拷貝數;比較不同功能狀態下mRNA表達的變化,搜尋與功
14、能狀態變化緊密相關的重要基因群。 36轉錄組研究的主要目的 發現所有轉錄本種類 確定基因結構 確定基因表達 發現差異表達基因37轉錄組測序技術主要包括:表達序列標簽(EST)表達系列分析(SAGE)基因芯片(Chip)高通量測序技術(NGS)38轉錄組測序 RNA_Seq的重要分支 RNA_Seq是指針對轉錄產物RNA的測序技術,主要有以下分支: 轉錄組分析 表達譜分析 小RNA分析 降解組測序 針對mRNA的測序 轉錄組測序是針對特定樣品特定時期的轉錄mRNA的測序技術,重點在對翻譯蛋白的mRNA的測序研究。39轉錄組測序的特點 應用對象靈活廣泛 針對不同物種,不同個體,不同時期,都可以在m
15、RNA水平準確的分析性狀或功能差異,結構變異等信息。 研究范圍多樣化 從未知基因組物種,到研究成熟的人體病變組織,小鼠組織等特異組織,均可通過轉錄組分析進行研究。 研究深度多樣化 從大規模功能轉錄本發掘到特定基因的可變剪接的不同功能分析,都可以定位研究。40表達序列標簽(EST)測定及分析1 1、什么是、什么是ESTEST?2 2、ESTEST的應用的應用 3 3、ESTEST序列測定及分析過程序列測定及分析過程41(2) 什么是表達序列標簽? (expressed sequence tag, EST) 從已建好的從已建好的cDNA庫中隨機取出一個克隆,庫中隨機取出一個克隆,從從5末端或末端或
16、3末端進行一輪單向自動測序,所獲末端進行一輪單向自動測序,所獲得的約得的約60-500bp的一段的一段cDNA序列。序列。基因組表達為基因組表達為RNA的序列的序列: mRNA和功能和功能RNA1、表達序列與表達序列、表達序列與表達序列標簽標簽概念概念(1) 什么是表達序列什么是表達序列?42EST的獲得途徑的獲得途徑43cDNA文庫構建 非標準化的cDNA文庫的構建。(可用于基因表達量的分析) 經標準化或扣除雜交處理的cDNA文庫。(富集表達豐度較低的基因) Oligo d(T) cDNA文庫。 (非翻譯區由于不含有編碼序列,與編碼區保守序列相比所受到的選擇壓力比較小,因而其多態性程度比較高
17、,便于多態性位點的選擇以用于遺傳圖譜的構建。 ) 隨機引物cDNA文庫。 (所獲得的EST在基因功能的鑒定時具有更多的信息含量,并且在構建EST數據庫時更有優勢,同時有利于利用EST數據庫聚類完整的基因和閱讀框的尋找,便于利用更敏感的蛋白質比較來尋找同源基因。 )44cDNAcDNA文庫構建常見問題文庫構建常見問題 RNA得率低 mRNA分離效率低 cDNA產物少原因:多糖、多酚、內源性核酸蛋白酶、 miRNA等45原因 多糖多糖-糖蛋白糖蛋白(核酸蛋白酶,植物血凝素等核酸蛋白酶,植物血凝素等)、多、多酚酚類等次生代謝產物在RNA分離時,經常與RNA共沉降,導致RNA 丟失丟失。或導致分離后的
18、RNA嚴重不純不純,影響mRNA分離的得率。 內源性核酸酶內源性核酸酶存在較多的情況下,可降解雙鏈DNA、RNA或者DNA-RNA雜合體,致使RNA易降降解解,轉錄后的DNA接頭無法連接接頭無法連接,是cDNA得率低的原因之一原因之一。 miRNA的存在導致mRNA的降解的降解46大規模EST序列測定的開始1983年:Costanzo等提出EST概念的雛形1991年:Adams測定了三種人腦組織共609條EST,宣布 了cDNA大規模測序的時代的開始代1991年:Okubo等提出大規模cDNA測序的研究戰略1993年:Venter等創立現在的EST技術1993年:Boguski & S
19、chuler提出以EST為界標的人類 基因組轉錄圖譜計劃47 93年前ESTs數據收錄于GenBank, EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一個專門的EST數據庫dbEST來保存和收集所有的EST數據。 95年中期GenBank 中EST的數目超過了非EST的數目。 現在GenBank中EST的數目已經超過了三千五百萬,約占GenBank中序列數的60%.48EST數量排名前10的物種Organism ESTsHomo sapiens (human) 8,301,471Mus musculus
20、 + domesticus (mouse) 4,852,146Zea mays (maize) 2,018,798Bos taurus (cattle) 1,620,962Arabidopsis thaliana (thale cress) 1,559,485Danio rerio (zebrafish) 1,527,299Glycine max (soybean) 1,481,930Xenopus tropicalis (western clawed frog) 1,422,983Oryza sativa (rice) 1,271,375Ciona intestinalis(玻璃海鞘) 1,
21、249,11049體內:翻譯體外研究:反轉錄連接,轉化50ESTs的應用 ESTs與基因識別 ESTs已經被廣泛的應用于基因識別,因為ESTs的數目比GenBank中其它的核苷酸序列多,研究人員更容易在EST庫中搜尋到新的基因(Boguski et al., 1994). 在同一物種中搜尋基因家族的新成員在同一物種中搜尋基因家族的新成員(paralogs)。 在不同物種間搜尋功能相同的基因在不同物種間搜尋功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜尋。已知基因的不同剪切模式的搜尋。【注:不過很難注:不過很難確定一個新的序列是由于交替剪切產生的或是由于確定一個新的序列是由于
22、交替剪切產生的或是由于cDNA文庫中污染了基因組文庫中污染了基因組DNA序列序列(Wolfsberg et al., 1997)】51ESTs與基因圖譜的繪制 EST可以借助于序列標簽位點(sequence-tagged sites)用于基因圖譜的構建. STS本身是從人類基因組中隨機選擇出來的長度在200-300bp左右的經PCR檢測的基因組中唯一的一段序列。來自mRNA的3非翻譯區的ESTs更適合做為STSs,用于基因圖譜的繪制。其優點主要包括: 由于沒有內含子的存在,因此在cDNA及基因組模板中其PCR產物的大小相同; 與編碼區具有很強的保守性不同,3UTRs序列的保守性較差,因此很容易
23、將單個基因與編碼序列關系非常緊密的相似基因家族成員分開。 (James Sikela等,1991年)52ESTsESTs與基因預測與基因預測 由于EST來源于cDNA,因此每一條EST均代表了文庫建立時所采樣品特定發育時期和生理狀態下的一個基因的部分序列。使用合適的比對參數,大于90的已經注釋的基因都能在EST庫中檢測到(Bailey et al., 1998)。ESTs可以做為其它基因預測算法的補充,因為它們對預測基因的交替剪切和3 非翻譯區很有效。53ESTsESTs與與SNPsSNPs 來自不同個體的冗余的ESTs可用于發現基因組中轉錄區域存在的SNPs。最近的許多研究都證明對ESTs數
24、據的分析可以發現基因相關的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。 應注意注意區別真正的SNPs和由于測序錯誤( ESTs為單向測序得來,錯誤率可達2)而引起的本身不存在的SNPs。解決這一問題可以通過: 提高ESTs分析的準確性。 對所發現的SNPs進行實驗驗證進行實驗驗證。54 利用利用ESTsESTs大規模分析基因表達水平大規模分析基因表達水平 因為EST序列是從某以特定的組織的cDNA文庫中隨機測序而得到,所以可以用利用未經標準化和差減
25、雜交的cDNA文庫EST分析特定組織的基因表達譜。標準化的cDNA文庫和經過差減雜交的cDNA文庫則不能反應基因表達的水平。 CGAP 為研究癌癥的分子機理,美國國家癌癥研究所NCI的癌癥基因組解析計劃(Cancer Genome Anatomy Project , CGAP)構建了很多正常的或是癌癥前期的和癌癥后期的組織的cDNA文庫,并進行了大規模的EST測序,其中大部分的文庫未經標準化或差減雜交處理。 基因表達系列分析基因表達系列分析(Serial Analysis of Gene Expression, SAGE) 基因表達系列分析是一種用于定量,高通量基因表達分析的實驗方法(Velc
26、ulescu et al., 1995)。SAGE的原理就是分離每個轉錄本的特定位置的較短的單一的序列標簽(約9-21個堿基對),這些短的序列被連接、克隆和測序,特定的序列標簽的出現次數就反應了對應的基因的表達豐度。 DNA微陣列或基因芯片的研究微陣列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微陣列是一種新的大規模檢測基因表達的技術,具有高通量分析的優點。在許多情況下,cDNA芯片的探針來源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探針的設計。55ESTsESTs數據的不足數據的不足 ESTs很短,沒有給出完整的表達序列; 低豐度表達基
27、因不易獲得。 由于只是一輪測序結果,出錯率達2%-5%; 有時有載體序列和核外mRNA來源的cDNA污染或 是基因組DNA的污染; 有時出現鑲嵌克隆; 序列的冗余,導致所需要處理的數據量很大。56EST數據庫u1993年前:EST收錄于GenBank, EBI和DDBJu1993年 NCBI 建立dbEST02468101214161820總EST條目(million)19931995199719992001時間(年)dbEST中數據量的增長中數據量的增長57u常用的常用的EST數據庫數據庫58(1)dbEST(database of EST) Genbank數據庫的一部分數據庫的一部分u描述
28、:描述:Publication文件:文獻文件,文獻發表信息文件:文獻文件,文獻發表信息Library文件:文庫文件,實驗信息文件:文庫文件,實驗信息Contact文件:聯系人文件,聯系信息文件:聯系人文件,聯系信息EST文件:文件:EST數據文件,核心數據數據文件,核心數據59(2)UniGene數據庫數據庫 Genbank數據庫的一部分數據庫的一部分一條紀錄為一個一條紀錄為一個gene clusteru簡介簡介u查詢查詢UniGene通過通過NCBI Ftp 下載:下載:/repository/UniGene/使用使用dbEST數據庫檢索數據庫檢索6
29、0(3)Gene Indices數據庫數據庫 The Institute of Genomic Research Database (TIGR)中的一個子庫)中的一個子庫/tgi/ u簡介簡介u數據構成數據構成42類動物類動物47類植物類植物15類原生生物類原生生物10類真菌類真菌61ESTEST數據分析方法數據分析方法62去除低質量的序列(去除低質量的序列(如使用如使用Phred)應用應用BLAST、RepeatMasker或或Crossmatch屏蔽屏蔽數據組中不屬于表達基數據組中不屬于表達基因的贗象序列因的贗象序列(artifa
30、ctual sequences) 載體序列載體序列(/repository/vector) 重復序列重復序列(RepBase,) 污染序列污染序列 (如核糖體如核糖體RNA、細菌或其他物種的基因組、細菌或其他物種的基因組DNA等等)去除其中的嵌合克隆去除其中的嵌合克隆最后去除長度小于最后去除長度小于100bp的序列的序列(1)序列前處理)序列前處理63聚類目的:將來自同一個基因或同一個轉錄本的具有重疊部分聚類目的:將來自同一個基因或同一個轉錄本的具有重疊部分(over-lapping) 的的ESTs整合至單一的
31、簇整合至單一的簇(cluster)中中聚類作用:聚類作用: 產生較長的一致性序列產生較長的一致性序列(contigs) ,用于注釋,用于注釋 降低數據的冗余,糾正錯誤數據。降低數據的冗余,糾正錯誤數據。 可以用于檢測選擇性剪切。可以用于檢測選擇性剪切。ESTs聚類的數據庫主要有三個:聚類的數據庫主要有三個: UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/ ) STACK (http:/www.sanbi.ac.za/Dbases.html )(2)ESTs的聚
32、類的聚類64ESTs的聚類和拼接的聚類和拼接 聚類的目的就是將來自同一個基因或同一個轉錄本的具有重疊部分(overlapping)的ESTs整合至單一的簇(cluster)中。聚類作用:聚類作用:v 產生較長的一致性序列(consensus sequence),用于注釋。v 降低數據的冗余,糾正錯誤數據。v 可以用于檢測選擇性剪切。v 基因表達譜分析ESTs聚類的數據庫主要有三個:聚類的數據庫主要有三個:v UniGene ()v TIGR Gene Indices ()v STACK 65不嚴格不嚴格的和嚴格的聚類的和嚴格的聚類 (loose and stringent clustering
33、) loose clustering 產生的一致性序列比較長產生的一致性序列比較長 表達基因表達基因ESTs數據的覆蓋率高數據的覆蓋率高 含有同一基因不同的轉錄形式,如各種選擇性剪接體含有同一基因不同的轉錄形式,如各種選擇性剪接體 每一類中可能包含旁系同源基因每一類中可能包含旁系同源基因(paralogous expressed gene)的轉的轉錄本錄本 序列的保真度低序列的保真度低 stringent clustering 產生的一致性序列比較短產生的一致性序列比較短 表達基因表達基因ESTs數據的覆蓋率低數據的覆蓋率低 因此所含有的同一基因的不同轉錄形式少因此所含有的同一基因的不同轉錄形
34、式少 序列保真度高序列保真度高66有參照的和無參照的聚類有參照的和無參照的聚類 (Supervised and unsupervised clustering) Supervised clustering 根據已知的參考序列(如全長mRNA、已拼接好的一致性序列) 聚類。 Unsupervised clustering 沒有根據參考序列進行分類。67Cluster的連接利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以連接在一起。68聚類問題l錯拼 poly(A) , Linker-to-linker, Gene Families, repeatl漏拼 Low qual
35、ity, Linker-to-linker, repeatl選擇性剪切 polyAlinker69(3)序列注釋和分析)序列注釋和分析一級序列同源性比對:使用一級序列同源性比對:使用BLASTBLAST等工具等工具蛋白質結構域和功能位點搜索蛋白質結構域和功能位點搜索基因功能分類:基因功能分類:Gene OntologyGene Ontology 表達量比較分析:不同組織或發育階段基因表達量比較通路分析可變剪切分析70 較好匹配InterproScanNt BlastnEST sequencesNr Blastx完成注釋無理想匹配較好匹配完成注釋無理想匹配較好匹配無理想匹配New sequenc
36、es域的注釋后 續 分 析常用的基因注釋流程71BLAST Basic Local Alignment Search Tool (BLAST) 結合了動態規劃算法和間接的啟發式算法的優點,同時把數據庫檢索建立在嚴格的統計學基礎之上,是目前最常用的同源檢索工具。 局部比對軟件 比對比較精確細致 用來做同源序列比對,進行基因功能注釋 耗時較長72BLAST簡介 命令及參數簡介 比對類型,5種不同的比對程序 在線比對和本地比對程序名程序名查詢序列類型查詢序列類型查詢數據庫類型查詢數據庫類型應用應用blastp 蛋白質蛋白質使用取代矩陣尋找較遠關系blastn 核酸核酸尋找較高分值的匹配,對較遠關系不
37、太適用blastx 核酸(翻譯)蛋白質用于分析新的cDNA序列或ESTtblastn 蛋白質核酸(翻譯)用于尋找數據庫中沒有標注的編碼區tblastx 核酸(翻譯)核酸(翻譯)用于更進一步的分析EST73BLAST結果簡介 BLAST比對結果詳解7474nr&nt nr(Non-redundant protein sequences) 包含GenBank所有編碼序列,以及PDB,swissprot,PIR,PRF數據庫的所有編碼序列的一個非冗余數據庫,數據庫完整度高,氨基酸序列數據庫。 nt(Nucleotide collection) 包含GenBank和PDB中(不包含EST,ST
38、S,GSS)的所有核苷酸序列信息,存在冗余的數據庫,數據庫完整度高。75Uniprot Uniprot(Universal Protein Resource) UniProt是一個集中收錄蛋白質資源并能與其它資源相互聯系的數據庫,也是目前為止收錄蛋白質序列目錄最廣泛、功能注釋最全面的一個數據庫。 整合三大數據庫:Swissprot、TrEMBL、PIR(Protein Information Resource)。 數據庫組成:UniprotKB(知識庫)、Uniprotarc(歸檔)、Uniref(參考資料庫)。76Uniprot簡介UniProtKBProtein knowledgebase
39、, consists of two sections:Swiss-Prot, which is manually annotated and reviewed.TrEMBL, which is automatically annotated and is not reviewed.Includes complete and reference proteome sets.UniRefSequence clusters, used to speed up sequence similarity searches.UniParcSequence archive, used to keep trac
40、k of sequences and their identifiers. Uniprot數據庫的最重要組成部分 UniprotKB(Uniprot knowledgebase)77UniProtKB/Swiss-Prot UniProtKB/Swiss-Prot 主要收錄人工注釋的序列及其相關文獻信息和經過計算機輔助分析的序列。這些注釋都是由專業的生物學家給出的,準確性無需置疑。 注釋結果全面翔實,注釋包括對蛋白質功能、酶學特性、剪接異構體、相關疾病信息的注釋等等。 注釋結果無冗余。 /docs/relnotes/relstat.html78Unipr
41、otKB/TrEMBL UniprotKB/TrEMBL 主要收錄的則是高質量的經計算機分析后進行自動注釋和分類的序列。 由于大規模測序產生的海量數據無法通過Swissprot的嚴謹注釋思路來進行注釋。TrEMBL存儲了比較全面完整的物種編碼序列信息。 存在冗余。 http:/www.ebi.ac.uk/uniprot/TrEMBLstats/79Uniprot注釋途徑 網頁提交序列 本地BLAST /80COG81 classification by molecular function012345log10 of ESTs numbertransp
42、orter activitytranslation regulator activitytranscription regulator activitystructural molecule activitysignal transducer activityprotein tagging activityobsoletemotor activityenzyme regulator activitydefense/immunity protein activitychaperone activitycell adhesion molecule activitycatalytic activit
43、ybindingapoptosis regulator activityantioxidant activity82KEGG注釋途徑 網絡提交任務 blast http:/www.genome.jp/tools/blast/83KEGG注釋結果 BLAST比對結果 根據比對結果提取代謝通路圖 根據基因對應的KO號 可以從KEGG官網得到對應的PATHWAY圖片84KEGG注釋結果85Interproscan Interproscan InterPro是一個關于蛋白家族(protein families)、功能保守區域(domains)和功能位點 (funtional sites)的數據庫。 該
44、數據庫包括了PROSITE, PRINTS, Pfam , ProDom等知名蛋白結構和功能位點及保守域的數據庫。86Interproscan http:/www.ebi.ac.uk/Tools/pfa/iprscan/87基因注釋基因注釋數據庫 注釋上的基因所占比例TIGR OGI(ver17)7126 94.3 TIGR PseudoMolecule(ver5)6151 81.4 NCBI UNIGENE(ver62)6714 88.8 NCBI nr protein database5831 77.2 93-11 BGI_Scan5854 77.5 Uniprot protein dat
45、abase3628 48.0 TIGR to GO4565 60.4 KEGG Automatic Annotation Server945 12.5 一共有一共有7250 (95.9%) 的的unigenes被注釋。被注釋。 88 技術路線cDNA文庫構建隨機測序得到EST序列讀取與處理序列拼接和注釋表達豐度和功能分析表達譜特征分析表達譜特征分析表達量在不同文庫中的分布表達譜的比較分析差異表達基因鑒定與分類功能分析作用機理分析作用機理分析Q-PCR驗證驗證89 EST軟件平臺EST序列庫/序列的質量檢查測序量監控聚類和拼接檢查(借助于基因組信息)全長ORF尋找發現全長基因研究表達基因概況的主
46、要實驗手段(DNA chip、proteomics的先驅)功能分類表達量分析交替剪接檢測EST特有信息90Microarray和GeneChip大規模表達譜或全景式表達譜(global expression profile):是生物體(組織、細胞)在某一狀態下基因表達的整體狀況。微陣列或基因芯片(DNA chip):利用光導化學合成、照相平板印刷以及固相表面化學合成等技術,在固相表面合成成千上萬個寡核苷酸探針,并與放射性同位素或熒光物標記的來自不同細胞、組織或整個器官的DNA或mRNA反轉錄生成的第一鏈cDNA進行雜交,然后用特殊的檢測系統對每個雜交點進行定量分析。91Spotted Micr
47、oarrays cDNA Arrays Oligo Arrays In Situ Oligo Synthesis PhotosynthesisPlaner surfaceMicrofluidics chip E-field synthesisIntegrated Chips Integrated uF, microarray and detection chips with PCR, fluorescence or e-detectionMicrofluidics Plastics Ceramics Silicon Other materials不同的生物芯片技術平臺不同的生物芯片技術平臺點樣
48、芯片原位合成芯片微流體芯片整合型芯片92基因芯片的探針基因芯片的探針93Tagged RNA fragments flushed over arrayLaser activation of fluorescent tagsOptical scanning of hybridization intensities基因芯片的雜交實驗基因芯片的雜交實驗94Experimental overview:HybridizationWashingScan cy5 channelScan cy3 channel“Overlay images”Quantify pixel intensities.Cellpop
49、ulation ACell population BRNAextractionAABBReversetranscriptionAABBKlenowlabel incorporationSample B labelledwith cy3 dyeSample A labelled with cy5 dye95圖像掃描Cy5Cy396Limit of Detection: 1 in 30,000 transcripts 20 transcripts/cellRed increase of Cy5 sample transcriptsGreen increase of Cy3 sample trans
50、criptsYellow equal abundance97差異表達基因篩選 原理:采用cy3/cy5的ratio值對差異基因進行 判斷,或采用統計方法對差異基因進行統計推斷。 方法:倍數法:cy3/cy5比值大于2或者小于 0.598 基因芯片或微陣列技術流程.Clone反轉錄(可選)反轉錄(可選)讀取光密度讀取光密度聚類分析(非同源功能注釋)聚類分析(非同源功能注釋)標記標記雜交雜交反轉錄反轉錄EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表達量矩陣G1,G3,G5G2,G4G6,G9利用EST,SAGE分析結果制作芯片(研究已發現的研
51、究已發現的基因基因)連接,連接,轉化轉化 Rice genome-wide DNA chip (60,000+預測基因) 果蠅基因芯片原位合成 99高通量測序轉錄組研究策略100高通量測序中重要名詞解釋1、測序深度:測序得到的總堿基數與待測基因組大小的比值。假設一個基因組大小為7M,測序總堿基數為70M,則測序深度為10。2、覆蓋度:測序獲得的序列占整個基因組的比例。由于基因組中高GC含量,重復序列等復雜結構的存在,測序最終拼接組裝的序列往往無法覆蓋所有的區域,這些區域就叫做Gap。二者的關系:測序深度與基因組覆蓋度之間是一個正相關的關系,測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降
52、。當測序深度在1015X以上時,基因組覆蓋度和測序錯誤率控制均得以保證。 101RNA-seq技術路線文庫制備測序短序列定位計數102Workflow of RNA-Seq樣品檢測樣品檢測文庫制備文庫制備Cluster StationIllumina Sequencing生物信息分析生物信息分析103Total RNA樣品檢測樣品檢測 Agilent 2200 檢測檢測 OD260/280:1.82.2 RNA 28S:18S 1.0; RIN7 新型安捷倫2200 TapeStation 系統是新一代測序(新一代測序(NGS)、生物微陣列芯片分析和qPCR工流程以及蛋白質純化和抗體生產過程中
53、對生物樣品進行質量控制(質量控制(QC)的理想解決方案。 可擴展的通量16聯或96孔微量滴定板 快速得到結果平均每個樣品只需一分鐘便可獲得結果 使用簡單可直接使用的ScreenTape預制膠條簡化了工作流程 樣品用量少每次運行僅需要不到2ul樣品104真核真核mRNA的純化的純化 mRNA的純化主要通過的磁珠與生物素吸附原理從而分離純化 Oligo(dT)25磁珠純化原理主要是mRNA的3的poly A與磁珠在bindingbuffer的作用下相結合。磁珠通過MPC(磁分離器)從溶液中分離出來。 mRNA與磁珠結合后,再用Tris-HCL在加熱條件下解離洗脫到溶液中。鏈霉親合素包被磁珠鏈霉親合
54、素包被磁珠+生物素標記生物素標記Oligo(dT)25+poly(A)105原核原核mRNA的純化的純化Ambion MICROExpress KitLNA扣鎖型探針扣鎖型探針106mRNA反轉錄反轉錄-fragment+RT 純化過的mRNA樣品加入1 l的fragment buffer 70作用1.5min。 加入1l的stop buffer終止反應。 加入沉淀劑(NaAc 糖原 無水乙醇)沉淀產物。 RT ds cDNA107 末端修復(防止自連) cDNA 3末端加A Adapter連接108第一天第一天消化消化DNAmRNA的分離的分離mRNA的打斷的打斷cDNA的合成的合成第二天第
55、二天末端修復末端修復 加接頭加接頭膠回收膠回收3端加端加A第三天第三天PCRPCR膠回收膠回收 文庫制備文庫制備 文庫質量檢測:文庫質量檢測:Aligent 2100:片段大小、純度、濃度qPCR:片段大小、濃度手工檢測:跑膠驗證。109ApplicationRNA-Seq (單端測序單端測序-Quantification)RNA-Seq (雙端測序雙端測序-Transcriptome)Expression-profilingAlternative SplicingFusion GeneSNP detectionHiSeq 2500Applications of RNA-Seq110110轉錄
56、組分析的兩種策略 左邊是先比對,再通過表達量和junction信息得到轉錄本,這種方法能夠檢測到低表達量的轉錄本; 右邊是對mRNA-seq的reads直接進行de novo 組裝,得到轉錄本,但對于低表達量的轉錄本不易發現。111轉錄組分析的兩種策略 有Reference的轉錄組分析 以比對為基礎,分析有基因組的樣品的可變剪接信息,以及預測可變剪接帶來的功能差異,同時定量不同樣品的mRNA表達豐度進行差異基因的相關分析。 無Reference的轉錄組分析 通過測序數據組裝大規模發掘對應物種的轉錄本信息,對組裝得到轉錄本做功能注釋分析,同時定量轉錄本的不同豐度進行差異分析。112兩種分析思路原
57、始數據Reference基因組Gff基因結構注釋差異基因分析及功能注釋分析有參考基因組無參考基因組聚類得到UnigeneUnigene的差異表達及功能注釋分析可變剪接結果可變剪接作圖TopHat+Cufflinks的可變剪接分析測序數據組裝差異基因聚類分析差異基因功能注釋結構預測分析差異基因聚類分析差異基因功能注釋113有參考基因組分析 可變剪接 根據軟件對基因可變剪接結果做預測 結合相關基因的功能進行深入的研究(性狀相關.)原始數據Reference基因組Gff基因結構注釋TopHat+Cufflinks的可變剪接分析114可變剪接簡介 一個基因在轉錄過程中經過不同的剪接處理得到不同的mRN
58、A從而產生不同的蛋白,是生物性狀多樣化的重要原因。115可變剪接類型外顯子跳過內含子滯留互斥外顯子可變5剪接可變3剪接保守剪接類型116可變剪接分析軟件 TopHat 針對高通量RNA_Seq的序列剪接檢測軟件,采用短序列比對軟件Bowtie進行序列比對和剪接檢測。 Cufflinks 利用Tophat的檢測結果和測序Reads的比對情況組裝構建轉錄本并進行表達豐度分析的軟件。117新基因的發現 新的編碼區域的定位 通過比對結果發現原本無基因注釋的區域出現了編碼mRNA的序列 新基因的功能注釋分析 對新基因的序列做功能注釋118無參考基因組分析 數據的組裝 Orf預測 SSR分析 通過BLAS
59、T做基因功能注釋分析原始數據聚類得到Unigene測序數據組裝結構預測分析(SSR、Orf及編碼序列)119測序數據組裝 組裝基本原理 基于測序reads之間的overlap進行的序列組裝 組裝軟件簡介 Trinity Transabyss SOAP-Trans120Trinity簡介 Trinity Trinity是一個組裝構建無Reference全長轉錄本的組裝軟件,專門針對高通量RNA測序設計的,組裝效果較好。121基因表達聚類分析 轉錄組學方法的應用導致基因表達數據爆炸性增長。如何對這些數據進行分析,從中提取有意義的生物學信息,已成為轉錄組學的研究熱點和技術瓶頸。 聚類分析技術能將待處
60、理的對象分配到相應的聚類中,使得同一聚類中的對象差別較小,不同聚類之間的對象差別較大。 聚類分析技術在轉錄組學研究中,非常適合大批量分析基因群的功能。 122有參考基因組序列信息分析流程有參考基因組序列信息分析流程123Reads 在基因組上的分布在基因組上的分布124基因結構優化基因結構優化 通過轉錄組測序鑒定出酵母3 和5 UTR區域125 鑒定基因可變剪接exon1exon2exon3exon1exon2exon3exon1exon3common readsjunction readsmRNA126鑒定融合基因鑒定融合基因127新轉錄本預測新轉錄本預測Genomic intergenic regionRead
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業設計與智能制造技術融合應用
- 工業設計與制造技術的創新融合
- 工作中的心理疲勞與對策研究
- 工作中的數據分析軟件使用指南
- 工業設計的美學與實 用性探討
- 工作中的法律風險防范與應對
- 工作流程標準化與管理提升
- 工作與生活平衡的企業政策實踐
- 工程塑料模架設計與優化
- 工作匯報的邏輯框架
- 《科學護眼愛眼共享光明未來》近視防控宣傳教育課件
- 面向對象分析和設計講座面向對象方法學PPT資料
- 鑄鐵閘門及啟閉機安裝說明及操作手冊
- 《財政學》教學大綱中文版
- 高危新生兒急診服務流程圖
- CLSI EP25-A 穩定性考察研究
- SJG 44-2018 深圳市公共建筑節能設計規范-高清現行
- 職工子女暑期工會愛心托管班的方案通知
- “文化引導型”城市更新思想思考與實踐課件
- 卷心菜中過氧化物酶熱穩定性的初步研究
- 渦輪增壓器系統及常見故障案例
評論
0/150
提交評論