




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基因家族分析套路(一)近年來,測序價格的下降,導致越來越多的基因組完成了測序,在數據庫中形成了大量的可用資源。如何利用這些資源呢?今日我帶你生疏一下不測序也能發文章的思路-全基因組基因家族成員鑒定與分析(現在這一領域可是很熱奧);一、基本分析內容n 數據庫檢索與成員鑒定n 進化樹構建n 保守domain和motif分析.n 基因結構分析.n 轉錄組或熒光定量表達分析.二、數據庫檢索與成員鑒定1、數據庫檢索1)首先了解數據庫用法,學會下載你要分析物種的基因組相關數據。一般也就是下面這些數據庫了n Brachypodiumdb:/n TAIR:h
2、ttp://n Rice Genome Annotation Project :/.n Phytozome:n Ensemble:/genome_browser/index.html n NCBI基因組數據庫:/assembly/?term=2)已鑒定的家族成員獵取。 如何獲得其他物種已發表某個基
3、因家族的全部成員呢,最簡潔的就是下載該物種蛋白序列文件(可以從上述數據庫中下載),然后依據文章中的ID,找到對應成員。對于沒有全基因組鑒定的,可以下列數據庫中找: a. NCBI: nucleotide and protein db. b. EBI: http:/www.ebi.ac.uk/. c. UniProtKB:/un
4、iprot/2、比對工具。一般使用blast和hmmer,具體使用命令如下:n Local BLASTformatdbi db.fasp F/T;blastallp blastp(orelse) i known.fasd db.fasm 8 b 2(or else) e 1e-5 o alignresult.txt.-b:output two different members in subjec
5、t sequences (db).n Hmmer (hidden Markov Model) search. Thesame as PSI-BLAST in function. It has a higher sensitivity, but the speed islower.Command:hmmbuild-informatafaknown.hmmalignknown.fa;
6、60;hmmsearchknown.hmmdb.fas>align.out.3、過濾。n Identity: 至少50%.n Cover region: 也要超過50%或者蛋白結構域的長度.n domain: 必需要有完整的該蛋白家族的。工具pfamdb (http:/pfam.sanger.ac.uk/) 和NCBI Batch CD- search. (/Structure/bwrpsb/bwrpsb.cgi).n EST
7、支持n Blast and Hmmer同時檢測到4、通過上述操作獲得某家族的全部成員基因家族分析套路(二)本次主要講解在基因家族分析類文章中,進化部分分析的內容。主要是進化樹的構建與分析。一、構建進化樹的基本步驟、多序列比對. Muscle program.、Model 選擇. 分別針對蛋白序列和核酸序列的模型選擇程序。ProtTest program for protein and ModelTest or Jmodetlest for
8、60;DNA(、算法選擇。三種. NJ, ML and BI.、軟件選擇。 MEGA (bootstrap least 1000 replicates), phyML and Mrbayes (、進化樹修飾. MEGA: view->options and subtree-> draw options. Also can be decorated
9、;in word (二、具體步驟 2.1 多序列比對。一般接受muscle。由于 MUSCLE is one of the best-performing multiple alignment programs according to published benchmark tests, with accuracy and speed that are
10、160;consistently better than CLUSTALW.2.2 模型選擇。對于用蛋白序列構建進化樹的可以接受下面命令: java -Xmx250m -classpath path/ProtTest.jar prottest.ProtTest -i alignmfile.phy.運行結果如下圖 留意:1)“.Phy” format. Only a
11、llow ten charaters.留意名字不能重復相同。2)AIC: Akaike Information Criterion framework.3)Gamma distribution parameter (G): gamma shape.3)proportion of invariable sites: I. 2.3 構建進化樹2.3.1 意義:a聚類分析。如亞家族分類。像MAPKKK基因家族通過進化樹可以清楚分為&
12、#160;MEKK, Raf and ZIK三個亞家族.b親緣關系鑒定。在進化樹上位于同一支的往往示意這親緣關系很近c 基因家族復制分析。爭辯基因家族復制大事(duplication events),兩種復制大事類型常接受的標準:Tandem duplication: Identity and cover region more than 70% and tightly linked (Holub, 2001).
13、160;Chromosomal segment duplication: Plant Genome Duplication Database (PGDD: /duplication/)2.3.2 進化樹。一般ML樹比較精確,但應結合方法,如NJ樹,相互驗證。2.3.3 進化部分分析:KaKs計算 簡潔的方法. 可以使用下面的網頁PAL2NAL(http:/www.bork.embl.de/pal2nal/)2.
14、3.3.2 標準方法:.a. ParaAT: ParaAT.pl-h test.homologs -n test.cds -a test.pep -p proc f axt k -o outputb. KaKs_Calculator m NG(or else) -i test.axt -o test.axt.kaksc.分歧時間計算:Divergenttime(T)&
15、#160;calculation. T=Ks/2. : mean 5.1-7.1×10-9 .d. Ka/Ks意義: Ka/Ks=1.中性進化。. Ka/Ks<> Ka/Ks>1.正選擇。Positively selected genes and produce fitness advantagemutations to evolve
16、new functions.基因家族分析套路(三)本節主要講基因結構分析套路1、Motif分析 使用軟件MEME,命令如下: meme sample.fa -dna revcomp -nmotifs 10 -mod zoops -minw 6-maxw 50>meme_htmlFormat.html2、基因結構分布圖可以使用在線網站GSDS2.0:website:用法如下:結果呈現3、基因結構常見統計信息:自己excel或寫程序統計
17、160; a. The number of intron andexon. b. The splicing intronpattern inculding 0,1,2 phase. c. The marked region. Forexample kinase domain. d. sequen
18、ce length. e. UTR.4、啟動子分析。網站:主要做植物的:http:/bioinformatics.psb.ugent.be/webtools/plantcare/html/留意事項:a. IE brower.b. Only one sequence for oncesearch and the length was limited in 1000 bp.c. DNA&
19、#160;sequence origin: 1000 or1500 bp upstream of ATG of one gene.分析結果:基因家族分析套路(四)一、轉錄組及芯片原始數據下載網站 1、 GEO datesets/profile(/gds ).。用法見下圖。GEO數據ID命名規章:GPL->GSE->GSM.GPL: platformGSE:
20、160;multiple series.GSM: multiple samples.GDS GSE. Thedifference concentrated on the data labeled GDS can be analyzed for one geneonline. It is simple and easily.The data in&
21、#160;the sameGPL can be used to compare inexperiment下面是在線分析轉錄組數據的用法:2、EBI ArrayExpress(http:/www.ebi.ac.uk/arrayexpress/) 該數據庫下載數據用法如下:3、PLEXdb(/).該數據庫下載數據用法如下,留意用戶名和密碼!4、SRA db(/sra/)5、DRA db(
22、http:/trace.ddbj.nig.ac.jp/DRASearch/)二、數據處理 拿到原始數據,要進行處理,才能進行后續數據分析。1、芯片數據。原始數據格式“.cel”格式。以AffyMicroarray數據處理為例敘述主要的命令如下:> library(affy); >library(makecdfenv); >library> barleyGenome = make.cdf.env(“barleyGenome.cdf")>mydata <-
23、60;ReadAffy() #choose “.cel “ file analyzed.>eset <- rma(mydata);>write.exprs(eset,file="mydata.txt")>design <- model.matrix(-1+factor(c(1,1,2,2,3,3) # Createsappropriate design matrix. >colnames(design
24、) <-c("group1", "group2", "group3") # Assigns column names.>fit <- lmFit(eset, design) # Fits a linear model for each gene based onthe given series
25、0;of arrays.>contrast.matrix <- makeContrasts(group2-group1,group3-group2, group3-group1, levels=design) # Creates appropriate contrast matrix toperform all pairwise comparisons.>fit2 <- contrasts.fit(fit,
26、60;contrast.matrix)# Computes estimatedcoefficients and standard errors for a given set of contrasts.>fit2 <- eBayes(fit2) # Computes moderated t-statistics and log-oddsof differential expr
27、ession by empirical Bayes >topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=10) # Generates list of top 10 ('number=10')differentially expressed genes sorted by B-valu
28、es ('sort.by=B') for firstcomparison group.>write.table(topTable(fit2, coef=1,adjust="fdr", sort.by="B", number=500),file="limma_complete.xls", s=F, sep="t") # Exports complete limma statistics table forfirst comparison group.>results <-&
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設備系統變更管理制度
- 設施農業臺賬管理制度
- 設計研發團隊管理制度
- 診室發熱患者管理制度
- 診所感染監測管理制度
- 診療服務收費管理制度
- 財務經費開支管理制度
- 財政評審稽核管理制度
- 貨品安全存放管理制度
- 貨物儲存倉庫管理制度
- 國產上海7120手表機芯
- 4配電柜安全風險點告知牌
- 《賣炭翁》中考閱讀經典賞析試題(共27題)
- 養老服務禮儀與實務全書ppt完整版課件最全電子教案正本書教學教程
- 旋挖機操作手知識試卷含參考答案
- Q∕GDW 11445-2015 國家電網公司管理信息系統安全基線要求
- 材料科學基礎 第2章 晶體結構
- 新標準大學英語(第二版)綜合教程2 Unit 5 A篇練習答案及課文翻譯
- 股靜脈采血學習教案
- TOM全面品質管理PPT課件
- 生產過程檢驗記錄表
評論
0/150
提交評論