




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、國際千人基因組計劃1000 genomes project-a deep catalog of human genetic variation生信1101鄧煜目錄背景介紹01先導項目內容02人種差異的分析041000基因組與醫學遺傳疾病05Discuss061期數據的收集,處理,分析0321000 human genomes背景介紹: “國際千人基因組計劃”自2008年1月22日啟動,測序的總任務為1200個人(故稱為千人基因組計劃),旨在繪制迄今為止最詳盡、最有醫學應用價值的人類基因組遺傳多態性圖譜。 3back ground國際人類基因組計劃極大地推動了基因組學領域中技術與研究 的發展。之
2、后的國際人類基因組單體型圖計劃(HapMap)產生了普通單核苷酸多態性變異的全基因組目錄,徹底改變了人類基因研究,并且有可能在最近幾年 發現超過200個有助于研究復雜疾病的新基因,如糖尿病,心臟病等。在此資源上所取得的巨大研究成就向科學界證明,研究出一種集合了低于5%的變化頻率和 包括插入、缺失、拷貝數變異、結構變化等其他形式的人類遺傳變異的更高清晰度遺傳圖譜是很有必要的。啟動于2008年1月的千人基因組計劃由一個國際研究協會發起,旨在提供最詳盡的人類遺傳變異圖譜,以 支持疾病的研究。作為此國際項目的主要支持者和共同發起人,深圳華大基因研究院、英國Sanger研究所和美國國立人類基因組研究所將
3、負責完成全球至少 1000人的基因測序。深圳華大基因正在進行3Tb的亞洲人基因測序以及相應的生物信息分析。4goal任何兩個人在基因水平上99%是一樣的,小部分的基因組序列因人而異。了解這些差異是非常重要的,它能幫助了解人與人之間對疾病的易感性、對藥物和環境因素的反應性的不同。然而,現有的圖譜還不夠詳細。新圖譜能讓研究者更快地鎖定與疾病相關的基因變異點,從而能夠使用遺傳信息更快地開發常見疾病的診斷、治療和預防的新策略5Sample lists and sequencing progress “千人基因組計劃”將測序的人群包括:尼日利亞伊巴丹區域的約魯巴人;居住于東京的日本人;居住于北京的中國人
4、;美國猶他州的北歐和西歐人后裔;肯尼亞Webuye的Luhya人和Kinyawa的Maasai人;意大利的Toscani居民;居住于休斯頓的Gujarati印第安人;居住于丹佛的中國人;居住于洛杉磯的墨西哥人后裔;居住于美國西南部的非洲人后裔。67第一階段:Pilot Project1.第一個先導項目:運用多種下一代高通量測序技術平臺,完成了兩個核心家庭共6人的高覆蓋度全基因組測序,每個基因組的測序深度在2060倍。通過此項目,可以評價多種主要測序方法的優缺點,為“國際千人基因組計劃”的后續項目掃清技術障礙。2.第二個先導項目:完成了179人的低覆蓋度全基因組測序,平均測序深度在3倍。數據表明
5、,大樣本低覆蓋度測序在降低成本的同時,仍然能有效識別人群中的基因多樣性。3.第三個先導項目:通過對700人的1000個基因外顯子的測序,獲得了占人類基因組全部序列2%的蛋白質編碼基因名錄。前所未有的大樣本量有助于研究人群罕見變異的表達圖譜。8三種測序技術的優缺點1.外顯子組測序技術 發現外顯子區的絕大部分的疾病相關變異 可發現常見變異和頻率50bp)的插入或缺失,形同SNP。3.SV:structure variation(基因組結構變異)染色體結構變異是指在染色體上發生了大片段的變異。主要包括染色體大片段的插入和缺失,染色體內部的某塊區域發生翻轉顛換,兩條染色體之間發生重組(inter-ch
6、romosome trans-location)等。18Variant calling 1.short variant callingBAM是一種文件格式19Variant calling2.Structural variation:Site selection of these structural variants was done in three steps:1) 5種算法選擇候選位點(BreakDancer,CNYnator,Delly,Genomes STRIP,and Pindel)2)估算假陽性率FDR3)基因分型 based on: a:有足夠的數據可以利用 b:移除冗余 c
7、:錯誤位點的移除20Variant callingto gain high-quaility known variants考慮: Mapping quality scores(比對的質量分數越高說明該read比對到參考基因組上的位置越唯一) base quality(如果一個base的出錯概率很低,那么質量就高,用于評價突變體的質量) read position(read比對到參考序列的第一個堿基位置)ensure low FDR21Variant calling-statistical filtering突變體的3個copies: 22intergrated單倍型:通俗的說法就是若干個決定同
8、一性狀的緊密連鎖的基因構成的基因型把SNP,indels,SVs,整合到一個單一的單倍型集合里SNP 位點并不是獨立遺傳的,而是在染色體上傾向于以一個整體遺傳給后代。成組遺傳的SNP位點在一代又一代的遺傳中絕少發生重組。于是,這樣的一組SNPs位點類型也就是單體型。由于單體型包含著多個SNP的遺傳信息,許多研究表明,在與復雜性狀的相關分析中,采用單體型比單個SNP具有更好地統計分析效果23intergratedProbabilistic haplotype estimation單倍型24variant calling-other worksvariant calling for mtDNAva
9、riant annotationvalidation Experiment25Analysis1.量化phase 1的數據集2.突變體能量和基因型精確度的評估:a.SNP被檢測到的能量作為總的等位基因頻率的一個函數在等位基因較少的情況下,外顯子組測序所得的SNP明顯多于全基因組測序26Analysisb.估計genotype的精確度,定義一個 =the squared Pearsons correlation coefficient(皮爾遜積矩相關系數的平方)在統計學中,皮爾遜積矩相關系數,用于度量兩個變量X和Y之間的相關(線性相關),其值介于-1與1之間。定義的 用于度量真實的和推斷的基因型
10、之間的相關性,來估計genotype的精確度,值約大推斷的基因型與真實基因型的相關性越高,那么Genotype的精確度就越大27Analysiswith LD:經過了單倍型整合的全基因組no LD:沒經過單倍型整合的全基因組在不相關等位基因較少的情況下,外顯子組測序的基因型精確度明顯高于全基因組測序而且沒有經過單倍型整合的全基因組測序所得得基因型精確度明顯低于經過了單倍型整合的全基因組測序和外顯子測序28 人種差異的分析 29人種中的基因突變1.integrated data set在實驗前已知:94% common variant(突變頻率5%)62% 的variant(突變頻率在0.5%-
11、5%)13%的variant(突變頻率0.5%)完善!30人種中的基因突變figure:淡藍色=background粉紅色(通過高密度snp探針);白色(實驗前已知),深藍色(先前不知)=Variant above 0.5%綠色的三角形=Indels下面的波紋=新變種黑線=大片段低頻缺失31人種中的基因突變2.突變的局限性和共享性分析這些位點和片段對于人種和群來說既有局限性又有共享性。隨著參與樣本數越多,僅存在于某個種族(白線)的基因比例越來越少;存在于所有大洲的基因比例和存在于所有人種的基因比例越來越多有顏色的區域:突變片段局限于某一個單一的祖先群體白線:突變片段只出現在某一個人種里黑色實線
12、:突變片段在所有的大洲中都出現了黑色虛線:突變片段在所有的人種中都出現了32人種中的基因突變rare allele4.人種中rare allele的共享在整個樣本中突變體出現了兩次成為 變異作用:估計在人種中 rare allele shareing的相關比例猜測某個人種的起源地稀有突變體非常具有代表性,它們共享的模式能夠揭示人種進化史的一些方面33人種中的基因突變3.Density of variants as a function of derived allele frequency每個人種的一個基因組所攜帶的預期突變體數的密度作為新生型等位基因頻率的函數:SNP 位點劃分為祖先型等位基
13、因 (ancestral allele)和新生型等位基因(derived allele)由圖我們發現的一些結論:1.在突變頻率低于40%時,人種間的進化有本質上的分歧(新生型等位基因頻率)2.非洲攜帶3倍的低頻變異(0.5-5%),反映了非非洲人祖先在進化上的阻礙3.有些人種的稀有變異(80%)大量過剩34人種中的基因突變5.Shared haplotype length 分析突變頻率與單倍型共享的長度呈負相關關系由shared haplotype length可以作為分析variant age 的一種參考35人種中的基因突變6.局部血統匹配we obtained:1)新的snp的比例2)雜合
14、位點的比例3)不相關的位點中同義與非同義突變的比例as a function of the doploid ancestry可以推斷ASW,PUR,CLM 和 MXL有不一樣的血統Native American 祖先的變異較少(3.0%),但是仍然比European祖先(2.6%)多;African變異最多36進化選擇有功能影響的稀有突變體的比例分析GERP :Genomic Evolutionary Rate Profiling(基因組進化速率評測)GERP score反映進化的保守性,越高,表示保守性越大DAF:derived allele frequencyENHCR, enhancer
15、; lincRNA, large intergenic non-coding RNA; non-syn, non-synonymous; PSEUG, pseudogene; syn, synonymous; TF,transcription factor;37進化選擇 GERP score and genetic diversity進化的保守性和基因的多樣性(ENCODE CTCF-binding mofit)結構域分為兩類:交互在ENCODE CTCF-binding 注釋的峰內和峰外,in peak and out peak。對in peak 結構域的GERP的分析,反映了進化的保守性I
16、n peak 結構域的多樣性小于out peak 結構域的多樣性,這應該與受到的進化選擇相關Logo 反映了in peak結構域堿基的保守性和多樣性。堿基比例越大,保守性越大;堿基種類越多,多樣性越大。381000 基因組數據在醫學遺傳學上的用途1000基因組數據能廣泛應用于對有家族遺傳性疾病和癌癥的個體外顯子組中的突變體的查明這是科學界首次實現千人規模以上的基因組對比分析,這一規模可以幫助發現一些罕見的基因變異,比如攜帶者占總人口比例不到的基因變異。這些罕見基因變異或許與疾病有關,例如可能增加心臟病或癌癥的患病風險,對基因變異進行研究有助于開發預防、治療相關疾病的方法 391000 基因組數
17、據在醫學遺傳學上的用途計算每種不同潛在功能的突變位點的平均數量數據分為三個部分:5% 因為許多導致變異的疾病處于低頻突變段,所以建議不同的頻率分開考慮根據潛在功能分類:*代表有功能*Coding variant classes(stop-loss;nonsynonymous;synonymous)loss of function(stop-gained;splice_site;frameshift_indel)*HGMD-DM and COSMIC SNPs*non-coding variant classes(non-coding RNAs;Motif gain and loss)*Othe
18、r conserved variantsAll sites with GERP score2 were considered as Total conserved sites marked*4041data for GWASGWAS:Genome Wide Association Studies(全基因組關聯分析)是一種檢測特定物種中不同個體間的全部或大部分基因,從而了解不同個體間的基因變化有多大的一種方法。不同的變化帶來不同的性狀,如各種疾病的不同。 1000 基因組的數據可以 用于GWAS中的全基因組掃描42:皮爾遜積矩相關系數的平方用于度量在某個頻率范圍內的真實的和估算的位點個數的相關性(精確性)樣本:10個非洲血統的人43在GWAS中被識別的 0.5的snp平均數量作為該snp到index snp最小距離的函數Phase 1得到的 0.5的 variant多于試驗階段和Ha
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冰河時代的行業解決方案:極寒地區融雪設備發展趨勢
- 德強學校九年級數學試卷
- 讀與寫2024數學試卷
- 電子版高中數學試卷
- 富平縣九年級數學試卷
- 文化活動中心功能分區規劃
- 冮蘇初一數學試卷
- 撫州市數學試卷
- 平涼市華亭市市直機關選調筆試真題2024
- 東莞東華初中數學試卷
- E H渦街流量計72型操作手冊(中文)
- NB/T 11462-2023帶式輸送機用液壓卷帶裝置
- 多酸化學智慧樹知到期末考試答案章節答案2024年東北師范大學
- 四川省成都市雙流區2023-2024學年部編版八年級下學期期末質量監測歷史試題
- 物流保密協議物流運輸保密協議
- 2024年浙江省普通高中學業水平適應性考試歷史試題(含答案)
- 5G-A通感一體應用場景研究 2024
- 會議記錄范文模板
- 我國醫療保險制度的變遷
- 中國減薄機行業市場現狀分析及競爭格局與投資發展研究報告2024-2034版
- 交警公眾號寫作培訓
評論
0/150
提交評論