群體遺傳學-單核苷酸多態及等位頻率_第1頁
群體遺傳學-單核苷酸多態及等位頻率_第2頁
群體遺傳學-單核苷酸多態及等位頻率_第3頁
群體遺傳學-單核苷酸多態及等位頻率_第4頁
群體遺傳學-單核苷酸多態及等位頻率_第5頁
已閱讀5頁,還剩49頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、群體遺傳學的基本概念與原理 單核苷酸多態與等位頻率基本內容基因頻率與基因型頻率 12345遺傳物質染色體的基本概況單核苷酸多態單核苷酸多態的測定及數據格式全基因組范圍內分析SNP應注意的問題人類基因組的構成人類基因組包含23對染色體,其中22對常染色體(按照染色體長短編碼1-22),一對性染色體(男性為X+Y;女性為X+X)。同源染色體的一條來自于父親,另一條來自于母親。一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況一、染色體的基本概況同源染色體與DNA雙鏈同源染色體(homologous chromosomes):是指

2、在二倍體生物細胞中,形態、結構基本相同的染色體,并在減數第一次分裂的四分體時期中彼此聯會,最后分開到不同的生殖細胞(即精子、卵細胞)的一對染色體,在這一對染色體中一個來自母方,另一個來自父方。DNA雙鏈:一對同源染色體共包含兩條染色體,每一條都是由兩條鏈構成的,每一條鏈都是由四種堿基排列而成,兩條鏈之間堿基互補配對。這四種堿基為:腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。其中配對規則是A與T配對、G與C配對,也稱之為堿基對(base pair)。一、染色體的基本概況一、染色體的基本概況同源染色體數據的抽象表述我們通常用A、G、C、T的組合來抽象的表述染色體的堿基排列。由于DNA

3、是雙螺旋結構,因此一對同源染色體共包含四條鏈,即兩對互補配對的DNA鏈。對于其中的一對互補鏈,只要我們知道一條鏈的序列堿基排列,就可以依據互補原則確定另一條鏈的堿基排列。因此對于一對互補鏈來說,我們只要檢測一條鏈的序列信息即可。這樣,一對同源染色體(原本四條序列)就可以用兩條序列來表述。以后,我們將用兩條由A、G、C、T組合而成的序列代表一對同源染色體。一、染色體的基本概況染色體物理位置與人類堿基對的數目 物理位置:是將染色體短臂端在上,長臂端在下放置,至上而下計算堿基對的個數,第一個堿基對處為1bp,第二個堿基處為2bp,依次類推。(注:此時假定一對同源染色體等長)。每個位置也成為一個位點。

4、單位換算:1kb=1000bp;1mb=1000kb。一、染色體的基本概況表1.1 人類染色體上堿基對的數目染色體序號堿基對數目染色體序號堿基對數目1247,249,71913114,142,9802242,951,14914106,368,5853199,501,82715100,338,9154191,273,0631688,827,2545180,857,8661778,774,7426170,899,9921876,117,1537158,821,4241963,811,6518146,274,8262062,435,9649140,273,2522146,944,32310135,3

5、74,7372249,691,43211134,452,384X154,913,75412132,349,534Y57,772,954合計:3,080,419,480從上表中,我們大致可以看出,人類基因組中約30億個堿基。AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6個體序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT2chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT

6、AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT4chr6無變異+祖先AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6個體序列AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr6AGATACGGCTAAACTTGGGGGTTTT

7、TAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6二、單核苷酸多態(多為2態SNP)突變率低,一次突變,自然選擇使得等位擴增單核苷酸多態性(single nucleotide polymorphism,SNP) 主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態性。它是人類可遺傳的變異中最常見的一種。二、單核苷酸多態(多為2態SNP)單核苷酸多態的統計學描述 為了加深理解,可以理解為:

8、突變是一次性歷史事件,自然選擇使得突變堿基在群體擴張。另外,為了描述方便,我們通過一個示例來進行闡述。 例:假定某個人群中有N個個體、某位點原有的堿基為G,則初始狀態中任何個體在該位點處均為純合子G/G,如果該位點發生了一次突變(假設核輻射引起),使得部分個體的G突變為A,則突變個體具有的基因型狀態為G/A或者A/A,如果A能夠使得個體更適應外部環境(也就是說含有A的個體更容易生存),則A將會在群體中擴張,含有A的個體所占的比例會越來越多。二、單核苷酸多態(多為2態SNP)SNP等位(Allele)從上例中,我們可以看出包含該位點的染色單體共2N條(因為同源染色體,所以乘以2),這2N個染色單

9、體一共有兩種堿基類型G和A,每個堿基類型成為一個等位(Allele)。野生型:上例中,G為群體初始狀態具有的等位,稱為野生型。突變型:上例中,A為突變后新產生的等位,稱為突變型。二、單核苷酸多態(多為2態SNP)SNP基因型(genotype)對于群體中的每個個體,一對同源染色體中的每條在該位點處的取值為G或A。因此,每個個體的同源染色體在該位點處的相型為G/G(野生型純合)或G/A(雜合)或A/A(突變型純合)。SNP基因型:同源染色體在同一位點的兩個等位組成的相型。二、單核苷酸多態(多為2態SNP)大多數的單核苷酸多態都是二態的 從表1.1中,我們可以看出,人類大約有30億個堿基,如果突變

10、的發生是隨機的,則某個位點處突變一次的可能性為1/30億。在該位點再突變一次的概率為(1/30億)*(1/30億)=1/900億。而到目前為止只有約1%的位點發生一次突變,還未有足夠的時間發生第二次突變,因此絕大部分的單堿基突變為二態。因此,我們可以二態的SNP進行數學抽象。二、單核苷酸多態(多為2態SNP)SNP等位的數學抽象:通常用A、a或1、2表示兩個等位。SNP基因型的數學抽象:通常用AA,Aa,aa,或0,1,2來表示三個基因型。SNP的數學編碼在后面的分析中會經常用到。二、單核苷酸多態(多為2態SNP)注:理論上講,SNP既可能是二等位多態性,也可能是3個或4個等位多態性,但實際上

11、,后兩者非常少見,幾乎可以忽略。占所有已知多態性的90%以上。SNP數目:人類基因組中SNP的數目還是個未知數,據估計人類所有群體中存在大約3000 萬個SNP 位點(平均約每300 600 bp ) 存在一個堿基突變。 SNP以其分布廣、易于分型、檢查速度快和頻率易于估計的特性,作為第三代遺傳標記已被廣泛的應用。二、單核苷酸多態(多為2態SNP)非同義SNP與同義SNP從對生物的遺傳性狀的影響上來看,SNP又可分為2種:同義SNP(synonymous SNP):即SNP所致的編碼序列的改變并不影響其所翻譯的蛋白質的氨基酸序列,突變堿基與未突變堿基的含義相同。非同義SNP(non-synon

12、ymous SNP):指堿基序列的改變可使以其為藍本翻譯的蛋白質序列發生改變,從而影響了蛋白質的功能。二、單核苷酸多態(多為2態SNP)非多態SNP(Nonpolymorphic SNP) 在理解SNP的概念需要注意的一個問題是,SNP是一個群體上的定義。對于多個群體而言,同一個SNP位點在所有的個體中存在兩種等位,但在單獨的某一個群體中只存在一個等位,此時我們稱這個SNP為這個群體中的非多態SNP。例如(找個實例進行補充),某個SNP位點在全世界范圍內有兩個等位A、T,而 在亞洲人群中卻只有1一個等位A,也就是說所有的亞洲個體都是純和子AA,這時,我們我們稱這個SNP是亞洲群體中的非多態SN

13、P。二、單核苷酸多態(多為2態SNP)dbSNP中SNP數據的格式:二、單核苷酸多態(多為2態SNP)三、單核苷酸多態的測定及數據格式(1)傳統檢測方法(2)SNP芯片(3)新一代測序技術三、單核苷酸多態的測定及數據格式假定,某個SNP兩個等位為T和A,PCR產物大小是:427bp,Kpnl限制性內切酶識別T并將序列切斷,對于含有A的序列不切斷,經過酶切后的產物是246bp+171bp兩個片段。然后片段通過瓊脂糖凝膠就會產生一些條帶信息,條帶信息分為3類:1個條帶、2個條帶和3個條帶。具體表示的分型信息如下(見下圖):三、單核苷酸多態的測定及數據格式(1)如果個體是T/T純合子,同源染色體PC

14、R產物相同,都含有T,都被酶切斷,共形成246bp長度和171bp長度的段,經過擴增后開始電泳,由于長度不同、質量不同導致運動速度不同(短的速度快,長度速度慢),經過一段時間后會形成兩個條帶。三、單核苷酸多態的測定及數據格式(2)如果個體是T/A雜合子,同源染色體PCR產物為不同的兩個,其中含有T的被酶切斷,形成246bp長度和171bp長度的段,而含有A的則沒有被酶切,長度仍然是427bp,最后的片段共三個長度:246bp、171bp和427bp。經過擴增后開始電泳,經過一段時間后會形成三個條帶。三、單核苷酸多態的測定及數據格式(3)如果個體是A/A雜合子,同源染色體PCR產物相同,都含有A

15、,而含有A的沒有被酶切斷,長度仍然是427bp,最后的片段共一個,長度:427bp。經過擴增后開始電泳,經過一段時間后會形成一個條帶。三、單核苷酸多態的測定及數據格式SNP芯片這樣可以在芯片上打上30萬500萬個探針,一次性的檢測出一個個體的幾十萬的SNP,為全基因組范圍內變異的掃描帶來方便。三、單核苷酸多態的測定及數據格式3.新一代測序技術新一代測序技術指的是高通量測序技術(High-throughput sequencing)又稱“下一代”測序技術(Next-generation sequencing technology),以能一次并行對幾十萬到幾百萬條DNA分子進行序列測定和一般讀長較

16、短等為標志。對無參考序列的物種,進行重頭測序(de novo sequencing),獲得該物種的參考序列,為后續研究奠定基礎;對有參考序列的物種,進行全基因組重測序(resequencing),在全基因組水平上掃描并檢測突變位點,發現個體差異的分子基礎。三、單核苷酸多態的測定及數據格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGAGTCCGGGAGGGGAGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGAGGGCGGGAGGGGAGGGTGGGGGGGT

17、CGTGGGGAGGGGAGGGTGGGGGGGTCGTGTGGAGGGTGGGGGGGTCGTGTCCCCGCGAGGGTGGGGGGGTCGTGTCCCCGCCA/A三、單核苷酸多態的測定及數據格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGGGTCCGGGAGGGGAGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGAGGGCGGGAGGGGGGGGTGGGGGGGTCGTGGGGAGGGGAGGGTGGGGGGGTCGTGTGGGGGGTGGGGGG

18、GTCGTGTCCCCGCGAGGGTGGGGGGGTCGTGTCCCCGCCA/G三、單核苷酸多態的測定及數據格式refTGACAATGGCTCCCGTCCGGGAGGGGAGGGTGGGGGGGTCGTGTCCCCGCCGGACAATGGCTCCCGTCCGGGAGGGGGGTCCGGGAGGGGGGGGTGGGGGGGTCGAATGGCTCCCGTCCGGGAGGGGGGGGCGGGAGGGGGGGGTGGGGGGGTCGTGGGGAGGGGGGGGTGGGGGGGTCGTGTGGGGGGTGGGGGGGTCGTGTCCCCGCGGGGGTGGGGGGGTCGTGTCCCCGCCG/G三

19、、單核苷酸多態的測定及數據格式新一代測序的一個優點是不用事先已知一些SNP,可以通過多個個體的序列比對從而發現新的SNP位點。三、單核苷酸多態的測定及數據格式三種SNP檢測方法共同的缺點 三種SNP檢測方法有個共同的缺點,就是均無法對同源染色體中的每條的相形進行準確的估計 三、單核苷酸多態的測定及數據格式AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT1chr6AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2c

20、hr6AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr6AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr6SNP1AGATAA/CGGCTAAACdbSNP&array:A/CdataPCRorGTTTTTAAA/GCCCCTTSNP2A/GPCRorPCR和芯芯片技術AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAGC

21、CCCTT1chr21AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT2chr21AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTTAGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT3chr21AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTTAGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT4chr211234C/AA/AC/CA/AG/GA/AA/GA/G等位1:A2:C1:A2:G野生型和突變型PCR和芯片技術,將染色

22、體割裂,導致恢復原來真實相形困難SNP數據的存儲格式1、家系數據2、群體數據三、單核苷酸多態的測定及數據格式家系數據 家系圖 (pedigree)表明親緣與婚姻關系的圖。 三、單核苷酸多態的測定及數據格式一般男用表示,女用表示;、以橫線連結的稱為婚姻線,表示為夫婦;從婚姻線的近中點向下作垂線,下端連上子女記號,子女如在二人以上,可按出生順序從左向右排列,世代數在圖左端以羅馬數字標出先證者,附以箭頭或手指圖等記號。完全的家系圖應一個不漏地包括死亡者、流產者和性別不明者。具有特別性狀的人以表示,或加斜線、縱線等以示區別; 三、單核苷酸多態的測定及數據格式家系圖數據存儲格式 在實際數據分析中,常常以

23、表格的形式對家系圖進行存儲,具體轉換成表格后每列的含義如下:第一列:家庭ID;第二列:個體ID;第三列:父親ID,沒有用0表示;第四列:母親ID,沒有用0表示;第五列:性別,1代表男性,2代表女性;第六列:受累狀態:1代表未受累,2代表受累 三、單核苷酸多態的測定及數據格式將下圖所示家系轉化為六列進行數據存儲三、單核苷酸多態的測定及數據格式家庭ID個體ID父親ID母親ID性別受累狀態1100211200121300211421111521211600121743211843121965221106511三、單核苷酸多態的測定及數據格式如何從家系數據中制作群體數據可以在家系數據中將父母為0的個體抽取出來作為無關個體進行群體分析。三、單核苷酸多態的測定及數據格式SNP數據說明:三、單核苷酸多態的測定及數據格式四、基因頻率與基因型頻率1、群體的遺傳結構 孟德爾群體(Mendelian population): 一個孟德爾群體,是一群能夠相互繁殖的個體,它們享有一個共同的基因庫。在有性繁殖的生物中,一個物種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論