




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、核酸測序技術的回顧與展望盧辰 蔬菜學 2009305010014摘要在過去的30多年中,核酸(包括DNA 和RNA )測序技術,作為最重要的分子生物學研究手段之一,經歷了多次技術突破,數據產出能力呈指數增長,并且測序技術本身也演變成為生物工程和物理學的新技術增長點。本文回顧了從第一代Sanger 測序到下一代測序的技術特點和應用,并對即將投入應用的第三代測序技術進行了前瞻性的展望。關鍵詞:核酸測序 下一代測序AbstractAs one of the most important tools of molecular biology, the nucleic acid (including D
2、NA and RNA sequencing technology has experienced several breakthroughs in the past three decades. The sequencing technology has not only been improving its productivity in the exponential growth rate but also been evolving into a new layout of technological territories toward bioengineering and phys
3、ical disciplines. This view look into the technical characteristics and applications from Sanger sequencing to the next generation sequencing, and provide prospective insights into the third generation sequencing.Keywords: Nucleic acids sequencing, next generation sequencing現代生物學的核心問題之一,就是遺傳信息的傳遞、表達
4、及其調控。為了理解這個問題,獲得遺傳信息的攜帶者核酸(DNA 和RNA )的具體序列,就顯得尤為重要。因此,核酸測序技術也就順理成章地成為分子生物學的核心研究手段之一。上世紀70年代中期,Frederick Sanger發明了末端終止測序技術,因此獲得1980年諾貝爾化學獎。隨即,基于Sanger 法的第一代自動化測序技術被開發出來,人們終于可以大批量地深入了解生物遺傳的密碼。近40年來,測序技術領域發生了翻天覆地的變化,測序通量的升級速率,猶如半導體工業的摩爾定律(Moores Law一般呈指數級地增長。測序技術的高速發展,海量涌現的序列數據,改變了整個生命科學領域的研究方式,并推動了基因組
5、學、生物信息學、系統生物學、合成生物學等等一系列學科的創立和發展。而這些學科的發展,又需要更加強大的測序技術來提供更多更精確的數據加以支持,反過來也激勵了相關技術理論和工程實踐的進一步發展。無論哪種測序技術,基本都可以被認為是模板制備,讀取堿基信息和顯示,以及數據分析這幾個部分的組合。本文根據國際上通行的世代劃分,對測序技術的發展歷程及其應用進行回顧和展望。I 第1代測序技術Sanger 末端標記法第1代測序技術,都是基于Sanger 發明的人工末端標記法 (Sanger, 1988。其主要思路是在待測序列的一端加上統一的測序接頭,用放射性同位素標記根據接頭設計的引物,然后由此開始延伸待測序列
6、。這個過程要進行四套獨立的反應,每套反應中分別加入四種雙脫氧核苷三磷酸 (ddNTP 中的一種。由于ddNTP 缺乏延伸所必要的3-OH ,這樣每套反應中延長的寡聚核苷酸鏈就會選擇性地在不同的A 、C 、G 、T 處終止,得到一組長度不同的鏈終止產物。然后利用高分辨率的變性凝膠電泳在四個泳道中分離各個片段,通過讀取放射自顯影顯示的不同長度片段就可獲得每個位置上的堿基信息。1.1 最早版本的自動化測序技術20世紀80年代中期,加州理工學院的Leroy Hood 研究組在Sanger 法的基礎上發明了最早版本的第1代測序儀,最大的改進就是不再在引物上進行同位素標記,而是采用不同顏色的熒光基團直接標
7、記不同的ddNTP ,這樣在一個反應體系中就可以同時進行四種末端終止反應,然后采用聚丙酰胺凝膠電泳分離,通過計算機來讀取并分析熒光信號。第二年,ABI 公司采用這個技術推出了第一款半自動DNA 測序儀ABI 370,并迅速推廣開來。1.2 改進后的第1代測序技術上世紀末,在第1版技術基礎上上,研究者采用緊湊的毛細管電泳代替了平板電泳,采用自動上樣,大大降低了試劑的消耗,同時測序進程的并行化程度也隨之大幅提升。采用這種改進版技術的ABI 3730和Amersham Mega-BACE等測序儀終于實現了測序的完全自動化,并在最早開展的幾個物種全基因組測序計劃,尤其人類基因組計劃的后期階段起到了關鍵
8、作用。經過二十年的逐步改進,第1代測序儀的讀長可以超過1,000 bp ,原始數據的準確率可以達到99.999%,每千堿基序列的成本是0.5美元,每臺測序儀的數據通量可以達到6105 bp/day。但是由于第1代測序技術對電泳分離技術的依賴,很難再進一步提升分析速率和并行化程度,其發展已經到達了極限。當然,第1代測序技術經過多年的考驗,在低通量常規測序,比如PCR 產物測序、質粒和細菌人工染色體的末端測序等等方面還將會繼續得到廣泛應用。II 第2代測序技術微陣列循環合成法隨著現代生物學的發展,研究者對測序通量的要求越來越高。為了滿足這樣的要求,人們開發出了多種多樣的下一代測序技術 (next-
9、generation sequencing, NGS。盡管這些技術的生化基礎和實現手段各有千秋,但是其基本思想都是采用矩陣結構的微陣列形式,實現樣品的微量化和處理的大規模并行化。大概的測序流程也大同小異,首先制備測序對象模板文庫,在雙鏈片段兩端連接上接頭序列,變性得到單鏈模板,固定到反應介質上,對樣本文庫進行擴增,然后開始測序反應,在測序反應進行的過程中通過顯微設備觀測并記錄連續循環反應中的光學信號,來獲得每個位置上的堿基信息 (Metzker, 2010。相比第1代測序技術,NGS 有下列幾個顯著特點:第一,微陣列形式可以實現大規模并行化。第二,不采用電泳,樣本和試劑的消耗大大降低,設備也易
10、于微型化。第三,由于對序列信息的獲取是直接讀取反應中的光學信號,因此從理論上說,檢測獨立光學事件所需要的波長,即光的衍射極限,才是并行化程度的極限。2.1 目前已經應用的下一代測序技術NGS 技術在上世紀90年代末就已經研發出來,而在2005年之后紛紛投入實際使用。其中Roche 454,Illumina Solexa 和Life/APGs SOLiD 三種是大規模商業化應用最為廣泛的,此外還有一些未能得到普遍應用的。Roche 公司的454測序儀利用微乳滴PCR (emulsion PCR, emPCR 擴增單鏈文庫片段,采用焦磷酸法來進行測序。首先將已經固化了引物的玻璃微球和單鏈文庫模板與
11、脫氧核苷三磷酸 (dNTP、聚合酶等PCR 反應體系必要化合物一起混合,微球和文庫片段按一定比例確保大多數微球結合的單鏈核酸分子不超過1個。整個反應體系是水油混合物,以玻璃微球為中心形成油包水結構的乳滴,每個乳滴都是一個PCR 反應的微量反應器。經過多輪循環反應,每個微球表面都結合了數千個相同的DNA 拷貝。變性后,使微球上結合的都是單鏈DNA 片段。再富集微球,轉移并放置到刻有大規模規則微孔陣列的微孔板上,每個微孔只能容納一個微球(圖1a )。隨后的測序反應在微孔板上進行。微孔板是流通池的一部分,一面可以通過測序反應的化合物,另一面與光學檢測系統連接。順次向流通池中加入4種dNTP 中的一種
12、,流過微孔板的一面。當dNTP 與脫氧核糖骨架連接后釋放出焦磷酸,在向測序反應體系中事先加入的A TP 硫?;负蜔晒馑孛缸饔孟庐a生一系列級聯反應,放出不同的光信號。每個微孔中光信號的有無,就表明對應的dNTP 是否連接到了片段上,也就確定了該位置是否存在這個堿基(圖1b )。 454測序儀采用的焦磷酸測序法不需要額外的化合物用于DNA 鏈的延長,擴增反應可以一直進行,出錯的幾率也較低,因此在多種NGS 技術中,測序速度較快,讀長最長可以達到500 bp 。但是由于沒有特定的終止基團來停止鏈的延伸,在遇到相同核苷酸連續排列的區域時,不得不依靠光信號的強度來推斷同聚核苷酸的長度,很容易產生錯誤。
13、因此454測序儀主要的錯誤類型是堿基的插入和缺失,而不是替換。454測序的另一個缺點是焦磷酸檢測需要的酶種類較多, 試劑價格相對較高。Illumina 公司的Solexa 技術,是通過固相擴增(solid-phased amplification 來擴增單鏈文庫,采用合成法進行測序。單鏈DNA 兩端加上非對稱的通用接頭,接頭與事先固定在固相芯片表面的序列互補,因此單鏈DNA 就結合到芯片表面形成橋式結構。然后使用接頭引物進行PCR 擴增,在一個芯片上可以形成上億個不相關的單鏈DNA 分子簇,其一端固定在芯片表面,另一端是自由的(圖2a )。隨后測序引物就可以雜交到自由的通用接頭序列上,開始測序
14、反應。測序使用的dNTP 經過改造,每種堿基被不同的熒光基團標記,同時脫氧核糖的3-OH 被封閉,這樣每輪測序循環只能延伸一個核苷酸。圖1. Roche 454測序原理a. 微乳滴PCR ;b. 焦磷酸法測序引自Metzker, 2010讀取堿基熒光信號,就能知道這一輪每個簇結合上的是什么核苷酸,也就獲得了模板中這一位置的序列信息。然后切除熒光基團,打開被封閉的3-OH ,繼續進行下一輪反應(圖2b )。 Solexa 法的合成測序過程,要求每一個簇中所有DNA 鏈的延伸要保持同 步。但由于化學反應的錯誤難以避免,例如不能及時切掉熒光基團或者去除封閉基團,這就會導致一個簇中的DNA 鏈延伸長短
15、不一,進而引起光信號的衰減或相位偏移。因此Solexa 法的錯誤主要是堿基的替換,并且這種錯誤是可以隨著鏈的延伸而累加的,因而也限制了Solexa 測序的讀長,目前經過改進也只能達到100 bp。 Life/APG公司的SOLiD (supportoligonucleotide ligation detection 測序儀,與454同樣通過與玻璃微球結合的微乳滴PCR 來擴增模板文庫,但測序反應采取的是連接反應,而不是聚合反應,同時使用雙堿基編碼策略來檢測錯誤。測序采用的是一種特殊設計的八 聚核苷酸探針,其5開始的1,2位是正常堿基,3,4,5三個是變性堿基,6,7,8是通用堿基,探針的3末端
16、用熒光基團標記,顏色與1,2位的堿基組合嚴格對應。每次測序反應的第1輪,測序引物1與固定在微球表面的接頭序列互補形成平末端,然后開始與探針連接。當探針1,2位與待測序列模板互補并連接上之后,獲取熒光信息。然后在探針的5,6位之間切開探針,進行下一個連接反應。這樣重復多次,可以獲得模板序列的第1-2, 6-7, 11-12, 16-17位置的信息。整個一輪反應結束后,將已經擴增的雙鏈變性恢復成單鏈,使用測序引物2與接頭序列配對,但引物5末端比前一輪提前1位,然后進行新一圖2. Solexa測序原理a. 固相橋式PCRb. 合成法測序引自Metzker, 2010輪的連接反應循環。這次讀取的就是模
17、板序列的0-1, 5-6, 10-11, 15-16位置的信息。這樣重復進行,每輪重置的引物都比上一輪要提前1位,直到所有位置上的序列信息都被讀取(圖3)。SOLiD 測序過程中由于每個堿基都被獨立測定了兩遍,因此可以知道測序錯 誤發生在什么位置,相應地其準確率也是最高的,但測序速度也是最低的。而且由于同一個微球上的鏈延伸同樣存在移相和錯誤累積的問題,因此SOLiD 法測序的讀長也受到限制,在50 bp左右。Polonator G.007采用與SOLiD 類似的微乳滴PCR 和連接法,但不采用雙堿基編碼策略。它同樣采用熒光標記的寡聚 核苷酸探針,探針與引物-模板鏈連接后,讀取熒光信號,得到對應
18、位置的堿基信息。然后并不連續延伸,而是變性后再與另一批探針進行重新連接,如此反復直到讀出所有位置。Polonator G.007不需要進行連續的連接反應,因此錯誤不會累積,保證了其準確性。但探針的讀取位置也因此受到限制,其測序讀長是最短的,僅有不到30bp 。但Polonator G.007進程簡單,是最便宜的NGS 技術,而且其技術平臺是開源 的,用戶可以自己變更并改進操作和試劑。2.2 單分子測序上述幾種NGS 技術,除了454之外,讀長都不超過100 bp (當然,與Sanger法相比,454的讀長也太短),成為其的致命傷。制約讀長的主要原因,是因為序列信息是依靠讀取DNA 簇延伸時統一
19、發出的光信號才獲得的,一旦延伸不同步導致光信號移相就會產生錯誤。為了解決這個問題,單分子測序技術(single moleculesequencing, SMS)應運而生。SMS 的主要思想是直接將模板文庫在陣列表面進行合成測序,不需要經過PCR 擴增,直接讀取每個分子延伸時產生的光信號。這樣避免了DNA 簇延伸不同步導致的光信號移相問題,也使得測序的通量進一步提高。但是單分子測序最大的挑戰就是如何準確檢測單分子水平的光學信號,避免非特異性的背景干擾。目前有幾種不同的方法來解決這個問題,基本的原則都是將檢測局限在測序反應發生的實際位置附近。Helicos BioSciences 公司在Quake
20、 公司技術基礎上研發的HeliScope 是最早在市場上出現的SMS 圖3. SOLiD連接法雙堿基測序原理 引自Metzker, 2010系統。首先將通用引物固定在陣列表面(可以達到109數量級),被加上接頭的單鏈模板文庫與之配對結合(圖4a )。每輪測序反應中,堿基上被不同熒光基團標記的四種dNTP 中的一種和核酸聚合酶流過,能夠延伸的鏈就會發出熒光并被記錄下來。然后經過洗脫,末端熒光基團被切除,進行下一輪的反應(圖4b )。在這個過程中,每個單分子鏈的延伸都是獨立操作的,根本不用考慮移相的問題。為了避免未參加反應的熒光基團的干擾,HeliScope 采用與Solexa 類似的全內反射熒光
21、 (total internal reflection fluorescence, TIRF 技術,只有靠近反應表面很薄的一層空間內的熒光基團才能被激發產生熒光。盡管如此,準確捕獲單分子光學信號仍然不是一件容易的事情,出錯的幾率依然較高。因此HeliScope 采取了雙向測序的策略進行改進。將模板單鏈兩端加上不同的接頭,通過一端接頭把模板直接固定在陣列上,當向一個方向延伸測序完畢后,變性,將模板重置為最初的狀態,利用遠端接頭(圖4c ),從相反的方向再進行一次測序,以校正錯誤。不過其讀長依然受到很大的限制,平均僅為32 bp。 與焦磷酸法一樣,HeliScope 對相同核苷酸連續排列的區域讀取
22、也存在問題。不過單分子操作的優勢就是可以通過動力學來控制NDA 聚合酶的反應,降低延伸的速率,減少多個連續相同核苷酸連圖4. HeliScope測序原理a. 固定引物的單向測序b. 合成法測序反應c. 固定模板的雙向測序引自Metzker, 2010接在鏈上的可能性。Pacific Biosciences公司宣布在2010年底將其單分子實時 (single molecule real time, SMRT 測序技術投入市場,這是目前最值得期待的NGS 技術。這一技術依賴于零級波導 (zero mode waveguide, ZMW 納米結構來實時觀察DNA 的聚合過程 (Eid et al.,
23、 2009。所謂ZMW ,是在一片薄金屬膜上蝕刻出數千個直徑為數十納米的亞波長小孔,再將金屬膜附著在透明基質上。由于小孔尺寸低于光的波長,因此光線從透明一側入射時無法投射,而是在每個小孔底部形成指數級衰減的消逝波,這樣就形成了一個體積受到嚴格限制的檢測空間。每個小孔底部固定一個已經結合了引物和模板的29 DNA聚合酶分子(圖5a ),測序反應所用的dNTP 的磷酸上標記有熒光受體基團。每次測序反應加入一種核苷酸,聚合酶在檢測空間內將其捕獲后產生光曝。通過連續實時檢測每個孔內的熒光信號,就快速測定了每個孔內的模板序列(圖5b )。這種連續實時讀取的錯誤率相對較高,但是可以通過對同一樣品重置后多次
24、測序來提升準確率。 Pacific Biosciences的SMRT 技術無需暫停DNA 合成的反應,在測序速率、讀長和成本方面有巨大的潛力。2.3 下一代測序技術的應用NGS 由于其高通量的特性,在出現之初就被用于全基因組測序和基因組重測序 (Gilad et al., 2009 。隨著NGS 的廣泛應用,基因組測序的進度大大加快了,不少使用第1代測序技術多年未完成的物種基因組,在使用NGS 后很快完成,例如西紅柿、馬鈴薯等等。不過由于NGS 的讀長普遍較短,圖5. Pacific Biosciences測序原理a. 固定聚合酶b. SMRT引自Metzker, 2010因此測序結果的組裝和
25、連配就顯得尤為重要。利用NGS 對同一物種的不同個體進行測序比較,可以很快發現之間存在的序列差異,進而找到突變。為進一步的個性化功能分析,比如人類疾病研究,農作物品質鑒定等等提供依據。某些情況下為了研究某些基因,需要獲得精細的遺傳連鎖圖譜。NGS 不僅僅可以很容易找到SNP 這樣的分子標記,而且將傳統的分子標記技術(如AFLP )與NGS 結合,可以快速獲得大量的分子標記,用來構建精細連鎖圖。由于RNA 單鏈分子很容易降解,第1代測序技術一般都是通過測定cRNA 或者EST 的來間接獲得mRNA 的序列。然而隨著RNA 的各種重要的生物學功能被逐步揭示,人們已經不滿足于只能間接獲得部分的RNA
26、 序列,迫切需要了解各種轉錄本的信息,包括mRNA 、非編碼RNA 和小RNA 等等。而下一代測序技術,雖然最初都是為了DNA 測序而開發的,但目前主流的三種技術,都可以稍加改造后用于RNA 測序 (Wang et al., 2009。小RNA 在生物體中起著重要的調控作用,由于其片段短,數量大,天然就適合NGS 。近年來利用NGS 已經發現了許多新的小RNA 和其作用靶標?;赗NA 測序,研究者可以高通量地來研究基因表達模式和表達調控。相比microarray 來說,NGS 不需要已知基因組序列的參考,在背景噪音和可重復性方面也有較大的優勢,因此大有取代microarray 的趨勢。例如用
27、于研究轉錄因子與基因組結合的染色質免疫共沉淀 (chromatin immunoprecipitation, ChIP 技術,就從ChIP-chip 演變為了ChIP-seq 。而新出現紫外交聯免疫共沉淀和高通量測序偶聯技術 (ultraviolet cross-linking and immunoprecipitation and high-throughput sequencing, CLIP-seq,更是研究蛋白質與RNA 作用的利器。III 第3代測序技術直接測序法與第1代測序技術相比,雖然第2代測序技術擺脫了電泳的限制,但仍然要通過聚合或連接之類的生化反應來延伸核酸鏈,并讀取延伸過程
28、中釋放出的光學信號,其本質上還是一種間接的測序形式。監測、存儲和分析光學信息,都大大提升了儀器的復雜性和成本;標記熒光基團、鏈延伸等等生化反應也需要耗費不少的試劑和耗材。為了進一步降低成本,提升測序通量,人們在第2代測序技術方興未艾的時候,就已經開始緊鑼密鼓地研發第3代測序技術。第3代測序技術目前都還處在概念驗證階段,各種奇思妙想層出不窮,但歸結起來無外乎一個基本思路,那就是采用分辨率足夠高的技術,直接讀取核酸序列的信息。目前有一定突破的是非光學顯微鏡成像和納米孔技術,而又尤以納米孔技術更為人們所關注 (Branton et al., 2008。納米孔測序(nanopore sequencin
29、g )技術,就是利用固態物質或生物分子制成直徑在納米尺度的小孔,在電場驅動下,使線狀核酸分子魚貫通過小孔,檢測核苷酸通過納米孔時的物理狀態來確定核酸的序列。一類方法是采用溶血蛋白作為納米孔材料。這種蛋白的微孔直徑,恰恰可以容納一條核苷酸單鏈通過,而且其穩定性相當好,在溫度接近水的沸點時仍然可以保持活性構象。當微孔分別處于無阻礙(開放狀態)和有單鏈核酸通過(阻塞狀態)時,通過微孔的離子電流會發生顯著變化(圖6a ),而且不同核苷酸組成的核酸通過時,變化的狀態也有不同。但是這個方法目前的分辨率還不能達到單個核苷酸。主要原因是孔道的長度一般都在5 nm 以上,而這個長度可以容納10-15個核苷酸。O
30、xford Nanopore Technologies 對溶血蛋白進行了改造,在微孔上加上一個氨基化環糊精 (aminocyclodextrin 接頭。當驅動四種不同的單磷酸核苷酸 (dNMP通過這種納米孔時,離子電流將分別降低到四種不同的水平。只要使用外切酶將DNA 鏈順次切成dNMP ,并使之單獨通過納米孔,就可以讀出每個位置上的序列信息(圖6b )。該方法的關鍵就在于如何保證外切酶切割下來的dNMP 能被嚴格單一地運送并準確通過納米孔 (Clarke et al., 2009。另一種思路是不檢測通過納米孔的離子電流,而是在納米孔兩側植入電極和電子探針,產生橫向的隧道電流,當核酸鏈通過納米
31、孔時測定每個核苷酸對隧道電流的影響(圖7a )。當然也有研究者采用化學探針,能夠分別與磷酸基團和堿基形成氫鍵(圖7b ),當然為了識別四種堿基,就需要設計四種探針。圖6. 納米孔離子電流測序原理a. 離子電流通過-溶血蛋白納米孔的兩種狀態b. 外切酶測序(金黃色為核酸鏈,右側藍色為外切酶)引自 Branton et al., 2008無論哪種方法,控制核酸分子通過納米孔的速度都是技術難點之一。為了提升測序速率,核酸鏈通過納米孔的速度必須較快,目前可以達到1 nt/s 。但是如果速度過快目前的速度確實已經過快了,就沒有足夠的時間去分辨單個堿基,而且微觀尺度下的隨機運動和分子間非特異相互作用還會進一步使這個問題復雜化。IV 小結與展望第1代和第2代測序技術之間,測序通量和讀長如同魚與熊掌不可得兼,因此兩代測序技術在目前都擁有強大的生命力。但是隨著2010年年底Pacific Biosciences的SMRT 技術投入市場,以及第3代測序技術的陸續實現,人類將很快進入低成本、高通量的測序時代。有報道已經樂觀估計人類將在2012-2014年進入10
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論