




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基因流計算文檔說明一 基因流大小估算群體結構模式是海島結構模式,基因流在群體間是隨機的、均一的而且群體也要達到漂變-遷移平衡,遷移個體來自所有其他群體中隨機的一個遺傳變異群體。該模型的基本思想是假設個群體分化為無限多個亞群體,亞群體在空間呈離散分布,每個亞群體接受一小部分來自整個群體的遷移個體。遷移率與遷移基因頻率在任一世代內假設為常數。島嶼模型中的Nm為每代遷入的有效個體數,即基因流的估計值。其計算公式為:Nm=1-Fst4FstWright, S. The genetical structure of populations. Ann Eugen, 1951. 15(4): p. 323-
2、54.二 長期基因流流向計算采用MIGRATE-N軟件中Bayesian inference的策略估算群體間基因流流向,對于群體A和群體B之間基因流流向來說,存在四種可能的模型:1)基因流在A和B之間雙向流動;2)基因流從A流向B;3)基因流從B流向A;4)兩者為同一群體。該軟件通過分別計算前三種模型的marginal likelihood值,再轉換為Bayes Factors進行比較來確定各模型的可能性。(1) 軟件運行命令parmfile為參數文件,具體設置詳見(3)。(2) 輸入文件格式MIGRATE-N軟件支持多種輸入格式,但此類軟件運行時間均非常漫長,在利用檢測到的全基因組SNP作基
3、因流流向估計時,為減少運行時間,我們通常把所有位點SNP連成DNA序列來進行運算,在此我們僅介紹DNA序列模式的輸入文件格式:第一行:分為4列數據信息,第一列留空,第二列為群體數目,第三列為位點數目,第四列為數據注釋;第二行:列數與位點數目等同,每列為該位點所含堿基數;第三行:群體1信息,列出群體內個體數及群體名字;第四行起:每個位點該群體內個體信息。 (3) 運行參數主要為parmfile參數文件的設置,該設置可以在命令行中修改,也可以直接采用文本編輯器直接編輯。 設置輸入輸出文件路徑上圖中1和7分別為輸入輸出路徑設置選項,也可在parmfile文件中直接對infile和outfile行進行
4、更改。 選擇需要分析的模型:圖中選項8即為模型選擇項,三種不同模型選擇如下圖示意,*表示計算,0表示忽略,因此選項值*表示模型一;*0*表示模型二,*0*表示模型三,而*00*則不進行任何計算,該選項也可在parmfile文件中直接對custom-migration行進行更改。 運行參數選擇主要設置選項:10,更改迭代次數,默認5000,次數越大越好,但運行時間也相應增加,建議最少10,000次以上;12,重復計算,默認關閉,建議設置3-5次為佳;13,heating選項,默認關閉,建議打開,直接采用其打開后的heating的參數。以上參數也可在parmfile文件long-sample、re
5、plicate及heating行中修改,如:long-sample=100000,replicate=YES:3,heating=YES:0:1.000000,1.500000,3.000000,1000000.000000。注意:在命令行窗口中,所有參數設置完成后,必須輸入W生成parmfile文件才會保存所有參數,在parmfile文件中修改則直接保存即可。(4) 結果輸出每個模型分別計算后,均可輸出pdf結果文件,也可直接用文本編輯器打開同名文件提取結果,主要為Thermodynamic integration值和Harmonic mean值,Thermodynamic integrat
6、ion值有兩個,分為1a和1b,簡單來說1a, 1b(Thermodynamic integration)就是采用heating參數后的結果,而2(Harmonic mean)是沒有采用heating參數的結果;1a, 1b之間的區別是作者認為1b采用了貝賽爾曲線從而獲得了更好地結果。要統計各個模型的可能性,要轉換為Bayes Factors進行比較,我們現在結果中的數值是marginal likelihood值,BF = Explog(P(D|thisModel) - log(P(D|otherModel)。舉例來說,我有一組1b的結果三個模型的marginal likelihood值分別為
7、-3,-2,-1,那么我們先取常數e-3,e-2和e-1的值,然后這三個值相加每個值與和的比值就是每個模型的可能性。通常來說,因為我們輸入的SNP序列會較長,計算得到的值負數太小,要是取e的負幾十萬次方根本無法計算,所以不好算這個P值,但是可以簡單的知道互相之間的可能性大小,值越大,概率越大,即e-1> e-2> e-3。(5) 結果解釋因為我們采用的算法是基于coalescent model,這個模型得到的結果,跟平時的解釋是相反的,因為coalescent model在時間上是從現在到過去,而正常情況下,我們解釋都從過去到現在,也就是說,從現在到過去,是有popB流向popA,
8、那么從過去到現在就是從popA流向popB。Beerli, P. and M. Palczewski. Unified framework to evaluate panmixia and migration direction among multiple sampling locations. Genetics, 2010. 185(1): p. 313-26.三 近期基因流計算BayesAss軟件被用來計算近期基因流,主要流程參數如下:(1) 軟件運行命令50000000 -b 5000000 -n 500 -o result/NDSD_nonFD.1.out examples/NDSD
9、_nonFD.haplotype.1 -a 0.55 -m 0.15 -f 0.06(2) 輸入文件格式第一列為個體名稱,第二列為群體名稱,第三列為位點名稱,第四第五列為雙倍體基因組基因型。(3) 軟件參數選擇以下參數供參數:-v 屏幕輸出詳細計算過程;-s 隨機種子初始數,可為任意整數,在重復運算時,可設置不同的種子數來驗證結果;-i 迭代次數,設置越大越好,但同樣會延長計算時間;-b burning數,丟棄開始部分的迭代計算結果;-n 選擇迭代結果,每隔n個選擇一個用于后續參數計算;-o 輸出結果路徑-a,-m,-f 混合模型參數,分別表示等位基因頻率、近交系數和基因流頻率,數值為0到1之間,此三個參數依照不同數據集需特異調整,如:上圖為運算過程中間結果輸出,%accepted后括號中第1、3、4列數值即由此三個參數分別控制,建議這三列數值為之間為佳。(4) 結果輸出結果輸出文件可用文本編輯器打開,示例如下:Migration Rates下面mij即為每一代群體i從群體j中遷移過來的個體比率。Rannala B, Yan
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥品耗材存放管理制度
- 藥品銷售員工管理制度
- 藥店分級分類管理制度
- 藥店消防制度管理制度
- 菏澤基層宿舍管理制度
- 設備變更備案管理制度
- 設備定期維修管理制度
- 設備更新報廢管理制度
- 設備管理二級管理制度
- 設備裝配公司管理制度
- 聲學裝修施工方案
- 基于MATLABsimulink同步發電機突然三相短路仿真
- 《標準的制定》課件
- 國土空間規劃環評培訓
- 北京理工大學《工程電磁場》2021-2022學年第一學期期末試卷
- 火災事故應急演練桌面推演
- 四川省成都市九縣區2023-2024學年高一下學期期末調研考試化學試題(解析版)
- 《二倍角的正弦、余弦、正切公式》名師課件2
- 2024年中國濃縮料預混料行業市場現狀、前景分析研究報告(智研咨詢發布)
- 內蒙古興安盟(2024年-2025年小學四年級語文)人教版期末考試(下學期)試卷及答案
- 2021-2022學年物理高一第二學期期末教學質量檢測模擬試題含解析
評論
0/150
提交評論