真菌基因組denovo結(jié)題報告_第1頁
真菌基因組denovo結(jié)題報告_第2頁
真菌基因組denovo結(jié)題報告_第3頁
真菌基因組denovo結(jié)題報告_第4頁
真菌基因組denovo結(jié)題報告_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

總體工作流程概 實驗流 生物信息分析流 結(jié) 數(shù)據(jù)概 2組概 3組組 3.1成 重復序 非編碼 4功能分 分泌蛋 比較 物種進 信息挖掘推 方 原始數(shù)據(jù)的質(zhì) 組 3組組 3.1成 重復序 4功能分 分泌蛋 比較 物種進 ............................................................................................................................分析結(jié)果文件列 常用數(shù)據(jù)格式介 BLAST 進化分 8................................................................................................................................... 真菌組Denovo結(jié)題報概述:通過IlluminaHiseq2000平臺,樣品1產(chǎn)出xxMb數(shù)據(jù)。基于數(shù)據(jù)組裝得到樣品1組大小為xxxMb,GC含量xx%,共xx個scaffold,xx個contig。組組分rRNAxx個。總體工作流程概述1實驗流程。DNA樣品被接收后,對樣品進行檢測;然后用檢測合格的樣品構(gòu)建文庫:首先采用超聲法Covaris或者Bioruptor將大片段DNA(如組DNA、BAC或長片段PCR產(chǎn)物)隨機打斷并產(chǎn)生主帶小于800bp的一系DNA片段,然后用T4DNAPolymerase、KlenowDNAPolymeraseT4PNK將打斷形成的粘性末端修復成平末端,再通3'端加堿基“A”DNA3'端帶有“T”堿基的特殊接頭連接,用電泳法選擇需回收的目的片段連接產(chǎn)物,再使用PCR技術(shù)擴增兩端帶有接頭的DNA片段;最后,用合格的文庫進行cluster和。生物信息分析流程圖2信息分析流程圖。(1)數(shù)據(jù)過濾:對原始數(shù)據(jù)下機數(shù)據(jù)進行過濾,獲得CleanData;(2)組裝:使用SOAPdenovo1.05軟件對CleanData進行組裝;(3)組組分分析,包括(a)成分;(b)重復序列分析,包括RepeatMasker,RepeatProteinMasker,Denovo和TRF四種方法;(c)非編碼RNA分析:包括rRNA、tRNA,sRNA、snRNA和miRNA;(4)功能分析,包括(a)通用功能注釋:使用GO、KEGG和Swiss-Prot,以及NR和COG數(shù)據(jù)對的ORF進行功能注釋:(b)病原真菌分析:包括CAZy、PHI、P450數(shù)據(jù)庫注釋;(c)分泌蛋白;(5)比較組學分析,包括(a)結(jié)構(gòu)變異(共線性);(b)共有和特有;(c)物種進化,包結(jié) Mb數(shù)據(jù)

樣品樣品

Lowquality

說明:InsertSize,插入片段長度;ReadsLength,reads長度;RawData,原始數(shù)據(jù)大小;Adapter,接頭所占比例;Duplicaiton,相同reads所占比例;Totalreads,總的reads條數(shù);Filteredreads,過濾掉reads所占百分比;Lowqualityfilteredreads,低質(zhì)量reads所占百分比;CleanData,交付數(shù)據(jù)大小。結(jié)果:Samplename/1.Cleandata/2組概組裝前通過K-mer分析初步判斷樣品的組大(參考實際以組裝結(jié)果為準雜合情況和重復序列信息,結(jié)果顯示:樣品1組大小約為xxxMb,詳細如下圖所示圖2- 布,而在實際數(shù)據(jù)中,由于錯誤的存在會導致低深度的K-mer數(shù)目占非常大的比例,同時,對于某些

%, 個表2-1樣品1組組裝結(jié)果統(tǒng) TotalNum(#)TotalLength(bp)N50(bp)N90MaxLength(bp)MinLength(bp)SequenceGCScaffold在N處打斷之后的Contig圖2- GC含量與深(Depth)關(guān)聯(lián)分析統(tǒng)計圖。橫坐標是GC含量,縱坐標是平均深度3組組 bpC 個 個組組分分析后發(fā)現(xiàn),樣品2的組含有xx個,總長度為xxbp,其中外顯總

bpCDS

tRNAxx個,rRNAxx個。表3-1組組分結(jié)果統(tǒng) GenomeSize(Mb)GCContent(%)NumberofGeneExons(#)CDS(#) LengthofGeneCDS(bp)Intron(bp)AverageLengthofGeneCDS(bp)Intron(bp)TotalLengthofRepeatSize(bp)RepeatSize/Genome(%)tRNANumber(#)rRNANumber(#)sRNANumber(#)snRNANumbermiRNANumber3.1成表3-2樣品1預測統(tǒng)計Gene Exons CDS Introne說明:GeneStat:的總體情況;ExonsStat:外顯子的總體情況;CDSStat:CDS的總體情況;IntroneStat:內(nèi)

兩類,后者主要包括長散在重復序列(LongInterspersedElements,LINE)和短散在重復序列(ShortInterspersedElementsSINE)兩類。我們使用四種方法對以上重復序列進行預測,結(jié)

bp3-31 Repeatsize %in說明:Type:預測重復序列的方法;RepeatSize:重復序列的總長;%inGenome重復序列占組的百分比。Total是三種方法找到的重復序列去冗余后的總的結(jié)果。

Length %in Length %in Length %in Length %in數(shù)據(jù)庫預測出的轉(zhuǎn)座子的結(jié)果統(tǒng)計;ProteinMaskTEs:用RepeatProteinMasker的預測結(jié)果;Denovo:使用Denovo方法的預測結(jié)果;CombinedTEs:綜合兩種方法的去冗余后結(jié)果。Total是幾類轉(zhuǎn)座子去冗余后的綜非編碼sRNA、rRNA、tRNA、snRNAmiRNA等,其中:sRNA:sRNA在微生物三個生物界中在細菌中被發(fā)現(xiàn)的較長度在5SrRNA四種;nt(ORF,snRNA(small(spilceosome)的主要成3-51RNA %ingenomerRNA(bydenovo說明:從左到右分別為ncRNA的類型、ncRNA的個數(shù)、ncRNA的平均長度、ncRNA的總長度、占組結(jié) :Sample 4功能分通用功能注釋GO數(shù)據(jù)庫注GO的全稱是GeneOntology,1988年由本體創(chuàng)立本體論數(shù)據(jù)庫,其分為ComponentFunctionProcess KEGG數(shù)據(jù)庫注KEGG全稱為KyotoEncyclopediaofGenesandGenomes1995年由KanehisaLaboratories數(shù)據(jù)庫將生物通路劃分為八大類,每一大類下還有細分,每一類均標示上與之相關(guān)的, Swiss-Prot數(shù)據(jù)庫注釋COG數(shù)據(jù)庫注COG,全稱是ClusterofOrthologousGroupsofproteins,由NCBI創(chuàng)建并的蛋白數(shù)據(jù)庫,根據(jù)細菌、藻類和真核生物完整組的編碼蛋白系統(tǒng)進化關(guān)系分類構(gòu)建而成。通過比對可以將某個蛋白序列注釋到某一個COG中,每一簇COG由直系同源序列構(gòu)成,從而可以推測該序列的功能。COG數(shù)據(jù)庫按照功能一共可以分為二十五類,其統(tǒng)計結(jié)果如下圖: 功能注釋COG功能分類NR數(shù)據(jù)庫注并,其特點在于內(nèi)容比較全面,同時注釋結(jié)果中會包含有物種信息,可作物種分類用。結(jié) 病原真菌致病性研究病原與宿主互作數(shù)據(jù)庫(PHI)注PHIPathogenHostInctions,病原與宿主互作數(shù)據(jù)庫,其內(nèi)容經(jīng)過實驗驗證,主碳水化合物相關(guān)酶(CAZy)數(shù)據(jù)庫注釋CAZyCarbohydrate-ActiveenZYmesDatabase,碳水化合物酶相關(guān)的專業(yè)數(shù)據(jù)庫,內(nèi)容包括能催化碳水化合物降解,修飾,以及生物合成的相關(guān)酶系。其包含四個主要分還包含與碳水化合物相關(guān)的modules(Carbohydrate-BindingModules,CBMs。4-1134細胞色素P450數(shù)據(jù)庫注釋真菌細胞色素P450數(shù)據(jù)庫,來源113個真菌以及卵菌,共8,731個P450,根據(jù)基InterPro數(shù)據(jù)庫中的位置,一共分為16tribe-MCL2,579類。結(jié) :Samplename/4.Genome_Function/Pathogen_Fungus_ 比較結(jié)構(gòu)變異(共線性夠顯示序列的插入、缺失等信息。通過該項析可以獲得菌株間組在進化過程中所發(fā)生結(jié)構(gòu)性變異情況(重排等,比如具有類似功能的簇在不同菌株中位置的變化等。圖5-1樣品1與參考序列xx核酸線性共線性圖。圖中橫軸是所測組,縱軸是參考物種組。圖中顏色較淺的水平或垂直的直線表示各個scaffold之間的分割。紅色線條為比對結(jié)果最優(yōu)的序列在兩個組上結(jié) 共有和特有分析比較不同菌株(3-4個)的序列,共同擁有的為共有(多數(shù)為菌株生表5-1CorePan結(jié)果統(tǒng)Core- Pan-#Gene #Gene Totalsize 圖5-2所有菌株稀釋曲圖5-3去除Core后的熱結(jié) (MP,(ML,TreeBeST,PHYLIP等,這里我們使用TreeBeST構(gòu)建系統(tǒng)發(fā)育樹。5-4結(jié) :Samplename/6.結(jié) :Samplename/6.信息挖掘推薦數(shù)據(jù)庫數(shù)據(jù)注釋結(jié)果的初級應用GOInterproquickGO數(shù)據(jù)庫,因此,該數(shù)據(jù)庫結(jié)果產(chǎn)果以*.iprscan.go結(jié)尾,因為GO數(shù)據(jù)庫三大類之間互有,所以對于同時注釋上多個GO ;DNAbinding;MolecularFunction ;DNABiologicalFunction學途徑(BiologicalProcess;分子功能上其與DNA結(jié)合有關(guān),而在生物學途徑上則與DNA甲基化有關(guān);由此說明,該與DNA甲基化過程中的DNA結(jié)合有關(guān)。KEGG數(shù)據(jù)我們關(guān)注丙氨酸代謝通路相關(guān),這時我們可以通過關(guān)鍵字在*.kegg.list.anno中尋找含有 4e-126tbi:Tbis_0822 K00259ald alaninedehydrogenase Metabolism;AminoAcidMetabolism;Alanine,aspartateandglutamatemetabolism[PATH:ko00250]Metabolism;MetabolismofOtherAminoAcids;Taurineandhypotaurinemetabolism[PATH:ko00430] mau:Micau_2216K00135E1.2.1.16,gabDsuccinate-semialdehydedehydrogenase(NADP+) Metabolism;CarbohydrateMetabolism;Butanoatemetabolism[PATH:ko00650]Metabolism;AminoAcidMetabolism;Alanine,aspartateandglutamatemetabolism[PATH:ko00250]Metabolism;AminoAcidMetabolism;Tyrosinemetabolism[PATH:ko00350]級來看,其屬于氨基酸代謝中的丙氨酸、天冬氨酸和谷氨酸代謝(Alanine,aspartateandglutamatemetabolism,因此,該通路即是我們所需要尋找的通路。之后我們查看*. Gene001368,K13821,1.5.99.81.5.1.12情況,可以打開KEGG_MAP 下的map00250.png文件即可。Swiss-Prot數(shù)據(jù)庫Swiss-Prot較其他庫的優(yōu)點在于其結(jié)果通過了人工驗證,可信度較高。比如某GO,KEGG以及Swiss-Prot數(shù)據(jù)庫注釋結(jié)果如下: ;membrane;CellularSwiss-Prot:{Y6609_RHOSRUPF0060membraneproteinRHA1_ro06609OS=Rhodococcussp.(strainRHA1)GN=RHA1_ro06609PE=3SV=1}由上面可見,Swiss-Prot的注釋結(jié)果最為完整,不僅說明了該的功能,還說明了驗name,GN1:Evidenceatproteinlevel2:Evidenceattranscriptlevel3:Inferredfromhomology4:5:COG數(shù)據(jù)GGGOCOGNR:{UspA-containingprotein[JonesiadenitrificansDSMCOG:{COG0589UniversalstressproteinUspAandrelatednucleotide-bindingproteinsTSignaltransductionmechanisms;}GO:IPR006016;由上面注釋結(jié)果可以看出,KEGG注釋結(jié)果缺失;COG注釋到了與應激、核苷酸結(jié)合相關(guān)的蛋白,其屬于信號轉(zhuǎn)導機制中的一部分;Swiss-Prot結(jié)果也驗證了該與應激相COG功能分類有其自身特點,能夠彌補其他兩個分類數(shù)據(jù)庫(KEGG,GO)注釋結(jié)果不確NR識,因此需要結(jié)合其他數(shù)據(jù)注釋結(jié)果進行確定。另外,NR庫因為在建立之初就包含有物種依然用Swiss-Prot使用的舉例,其在NR庫注釋結(jié)果為:{hypotheticalproteinBcav_0666BeutenbergiacavernaeDSM12333]},在沒有其他數(shù)據(jù)庫參考下,僅知道其為假定中注釋到的物種不一致,因此NR庫的物種注釋結(jié)果也僅作為參考。PHI數(shù)據(jù)(PH:XXX(TX:XXXCAZy數(shù)據(jù)GH55分EC編碼,但是有部分酶類的功能來源于文獻描述,這時候注釋結(jié)果中就是顯示NCBI的PMID信息。不同類型真菌組分析推病原真菌致病性研究動物病原真菌致病性研究易被清除,為致病提供前提條件。如Blastomycesdermatitidis的cellwalladhesionWI-1蛋白通過非共價鍵相互作用,調(diào)節(jié)真菌細胞壁與單核巨噬細胞的“complementtype3receptors”的綁滲透和散播階段:動物病原真菌侵染后,通過鄰近組織連續(xù)或進入血液進行散播。植物病原真菌致病性研究effector蛋白(其氨基酸的長度與其功能也有一定2個轉(zhuǎn)運系統(tǒng)。工業(yè)酵母表型關(guān)聯(lián)分析不同的酵母菌株在同樣的培養(yǎng)條件下有不同的表型(比如高產(chǎn)、耐受乙醇、是否可以直接利用木質(zhì)維素水解發(fā)酵等型的差異。為了找到與表型相關(guān)的組改變,首先通過組獲得不同表型的酵母菌株通較全差NP和InDel合的排。參考文獻:SwinnenS,SchaerlaekensK,PaisT,ClaesenJ,HubmannG,etal.(2012)Identificationofnovelcausativegenesdeterminingthecomplextraitofhighethanoltoleranceinyeastusingpooled-segregantwhole-genomesequenceysis.GenomeRes22:975-984.PartsL,CubillosFA,WarringerJ,JainK,SalinasF,etal.(2011)Revealingthegeneticstructureofatraitbysequencingapopulationunderselection.GenomeRes21:1131-1138.Greene,J.P.,F.Morandi,etal.(2012).Whatisyourdiagnosis?InfectionwithdimorphicBlastomycesdermatitidis.JAmVetMedAssoc240(8):945-946.Mayer,F.L.,D.Wilson,etal.(2013).Candidaalbicanspathogenicitymechanisms.Virulence4(2):119-128.Islam,M.S.,M.S.Haque,etal.(2012).Toolstokill:genomeofoneofthemostdestructiventpathogenicfungiMacrophominaphaseolina.BMCGenomics13:493.Pedersen,C.,E.V.vanThemaat,etal.(2012).Structureandevolutionofbarleypowderymildeweffectorcandidates.BMCGenomics13(1):694.Rafiqi,M.,J.G.Ellis,etal.(2012).Challengesandprogresstowardsunderstandingtheroleofeffectorsinnt-fungalin ctions.CurrOpin ntBiol15(4):477-482.方原始數(shù)據(jù)的質(zhì)控平臺上產(chǎn)生的原始數(shù)據(jù)(RawData)存在一定比例低質(zhì)量數(shù)據(jù),為了使得后續(xù)分析 read1

bp

去除質(zhì)量值連續(xù)≤2的堿基數(shù)達到一定程度的reads(默認40%,設置為xx個 去除adapter污(默認adapter序列與read序列有15bp的overlap,設置 去除duplication上述的處理方式均同時對read1read2操作。該處理一般情況下會去除10%~20%的數(shù)據(jù)(小片段文庫數(shù)據(jù)。大片段文庫數(shù)據(jù)由于duplication比較高,去除數(shù)據(jù)量會比較多,沒有處理后的數(shù)據(jù)稱為CleanData。組再根據(jù)readspaired-endoverlap關(guān)系,對組裝結(jié)果進行局部組裝和優(yōu)化。軟件:SOAPdenovo;版相關(guān):常用參數(shù)設置:–k*p8FM2d1-Ru-k*-o參考文獻:Lietal(2010).Denovoassemblyofhumangenomeswithmassivelyparallelshortreadsequencing.GenomeResvol.20(2).Lietal(2008).SOAP:shortoligonucleotidealignmentprogram.BioinformaticsVol.243組組3.1成Homology(同源預測)是通過組序列和參考蛋白集進行比對來確定位置的,預測的結(jié)果特點是數(shù)目少,但是準確率很高。通過genewise軟件預測,用此方法需要提軟件:genewise[1];版本-- SNAP也是通過隱模型工作的,自身是沒有現(xiàn)成的訓練集的,需要參考物種進行訓練集的構(gòu)建。如果要使用這個兩個軟件,必須尋找一個參考物種,得到它的組序列和位置信息的gff文件,自己來構(gòu)建訓練集來進行預測。<genome.fa> -- gram.hmm--prefix Augustus運用隱模型,隱馬模型abinitio預測。基本要素包括兩個狀態(tài)(觀察狀態(tài)、隱含狀態(tài))和三個概率(初始概率、轉(zhuǎn)移概率和兩態(tài)對應概率DNA序列和置信息的gff文件,自己來構(gòu)建訓練集來進行預測軟件:Augustus[3];版 -- --GeneMarkes是通過隱馬模型工作的,但是它不需要參考物種,是自身訓練的,不需要軟件:Genemarkes[4];版相關(guān): 參考文獻:BirneyE,ClampM,DurbinR(2004).GeneWiseandGenomewise.GenomeMay;14(5):988-Johnson,A.D.,Handsaker,R.E.,etal(2008).SNAP:Aweb-basedtoolforidentificationandannotationof SNPsusingHapMap.Bioinformatics,24(24):2938-2939.OliverKeller,MartinKollmar,etal(2011).Anovelhybridgenepredictionmethodemployingproteinmultiplesequencealignments.Bioinformatics,:10.1093/bioinformatics/btr010.Ter-HovhannisyanV.,LomsadzeA.,etal(2008).Genepredictioninnovelfungalgenomesusinganabinitioalgorithmwithunsupervisedtraining.GenomeResearch,Dec18(12):1979-90.Denovo方法來查找轉(zhuǎn)座子序列。具體RepeatMasker軟件(Repbase數(shù)據(jù)庫、RepeatProteinMasker軟件(使用RepeatMasker自帶的轉(zhuǎn)座子蛋白庫)Denovo(buildXDFDatabase軟件以自身序列建軟件:Repeatmasker[1];版本:3-3-相關(guān): –liblib文相關(guān): 參考文獻:SuryaSaha,SusanBridges,etal(2008).Empiricalcomparisonofabinitiorepeatfindingprograms.NucleicAcidsResearch,Feb.G.Benson(1999).Tandemrepeatsfinder:aprogramto yzeDNAsequences.NucleicAcidsResearch,Vol.27,No.2,pp.573-580.非編碼RNA預測tRNA區(qū)域和tRNA的二級結(jié)構(gòu);通過Infernal軟件,與Rfam[3]數(shù)據(jù)庫進行比對得到sRNA*注:通過比對方法找到的rRNA較為準確但是不夠全面,尤其是在缺少近緣物種rRNA作為參考序列的情況下,就只能使用rRNAmmer軟件進行從頭預測。軟件:RNAmmer相關(guān)常用參數(shù)設置:–s –m –gff*. –f相關(guān) –o*.tRNA–f*相關(guān)常用參數(shù)設置:–p –W –e –v –b –m –i 參考文獻:Lagesenk,HallinP.F,R?dlandE,etal(2007).RNAmmer:consistentandrapidannotationofribosomalRNAgenes.Nucl.AcidsRes,35(9):3100-3108.LoweT.M,EddyS.R(1997).tRNAscan-SE:AProgramforImprovedDetectionofTransferRNAGenesinGenomicSequence.Nucl.AcidsRes.25(5):0955-964.GardnerP.P,DaubJ,TateJ.G.,etal(2009).Rfam:updatestotheRNAfamiliesdatabase.Nucl.AcidsRes.37(suppl1):D136-D140.4功能分成,提供的BLAST結(jié)果為M8格式,同時還提供部分數(shù)據(jù)庫的注釋結(jié)果匯總。KyotoEncyclopediaofGenesandGenomes(KEGG1][2][3];版本:59ClusterofOrthologousGroupsofproteins(COG4][5];版本:GeneOntologyGO7]PathogenHostIn ctionsPHI)[8];版本:3.2FungalCytochromeP450Database[9];版本:1.1(參考文獻:KanehisaM,GotoS,KawashimaS,OkunoY,HattoriM(2004).TheKEGGresourcefordecipheringthegenome.NucleicAcidsRes32(Databaseissue):D277–80.KanehisaM(1997).Adatabaseforpost-genomeysis.TrendsGenet13(9):KanehisaM,GotoS,HattoriM,Aoki-KinoshitaKF,ItohM,KawashimaS,etal.(2006).Fromgenomicstochemicalgenomics:newdevelopmentsinKEGG.NucleicAcidsRes34(Databaseissue):TatusovRL,KooninEV,LipmanDJ(1997).Agenomiconproteinfamilies.Science.Oct24;278(5338):631-7.TatusovRL,FedorovaNDetal.(2003).TheCOGdatabase:anupdatedversionincludeseukaryotes.BMCBioinformatics.Sep11;4:41.Magrane,M.andUniProtConsortium(2011).UniProtKnowledgebase:ahubofintegratedproteindata.Database(Oxford),bar009.BardJ,WinterR(2000).GeneOntology:toolfortheunificationofbiology.NatGenet.25:25-nVargasWA,MartínJMetal(2012).tdefensemechanismsareactivatedduringbiotrophicandnecrotrophicdevelopmentofColletotricumgraminicolainmaize.ntPhysiol.2012n,M.,etal(2007).TheCytochromeP450EngineeringDatabase:anavigationandpredictiontoolforthecytochromeP450proteinfamily.Bioinformatics.23,2015-2017.CantarelBL,CoutinhoPM,RancurelC,BernardT,LombardV,HenrissatB(2009).TheCarbohydrate-ActiveEnZymesdatabase(CAZy):anexpertresourceforGlycogenomics.NucleicAcidsRes37:D233-238(cTPmTPSPother功能注釋。other(cTP參數(shù):Lscore>0,Lscore=-918.235-123.455*(MeanS 軟件:TMHMM,版本:2.0參考文獻:Klee,E.W.andL.B.Ellis(2005).Evaluatingeukaryoticsecretedproteinprediction.BMCBioinformatics6:256.EmanuelssonO,BrunakS,etal(2007).LocatingproteinsinthecellusingTargetP,SignalPandrelatedtools.NatProtoc.2007;2(4):953-71.比較結(jié)構(gòu)變異(共線性P1P2P2P1BLASTp比對,對庫中的每個蛋白選取最好的比對結(jié)果,得到蛋白對(besthit);最后兩次比對一致的蛋白對保留,該蛋白對的一致值為兩次比對一致值的均值。將2中得到的蛋白對,根據(jù)其位置信息,按相同比例縮小后標到圖上。常用參數(shù)設置設置:-b200c65extendl參考文獻:[1]S.Kurtz,A.Phillippy,A.L.etal(2004).Versatileandopensoftwareforcomparinglargegenomes.GenomeBiology,5:R12.共有和特有首先取參考菌株的集為Reference集,選取剩余樣品中的一個樣品Query集與Reference集進行BLAST比對,根據(jù)比對的長度與identity值過濾比對結(jié)果,然后如果在Reference與Query中的BCR值均小于設定的閾值,則認為Reference與Query為非同源,將Query加入到Reference集中,構(gòu)成一個新的Reference集。依次取樣品,重復進行上述步驟,最后得到多個樣品的非冗余的Reference集即為多個樣品的Pan集。Reference與Query的BCR值計算如下:注:其中Match為二者比對有效長度Length(R)為Reference長度Length(Q)為Query長度將每個樣品的集與最終的Pan集進行比對,計算Pan集中每個在每個軟件:BLAST;版本常用參數(shù)設置設置:-pblastnm8FFa3e1e-5參考文獻:[1]Qin,J.,R.Li,etal.(2010).Ahumangutmicrobialgenecatalogueestablishedbymetagenomicsequencing.Nature464(7285):59-65.SNP矩陣構(gòu)建系統(tǒng)進化樹。對于每一株菌,按照相同順序?qū)NPfasta格式的序列(其中一個為參考序列,作為輸入文件。用TreeBeST[1]的PHYML(最大似然法)算法構(gòu)建系統(tǒng)進化樹,bootstraps參數(shù)設置為1,000。軟件:TreeBeST,版本:treebest-常用參數(shù)設置:treebestphyml-b1000參考文獻:[1]TannisthaNandi,CatherineOng,ArvindPratapSingh,etal(2010).AGenomicSurveyofPositiveSelectioninBurkholderiapseudomalleiProvidesInsightsintotheEvolutionofAccidentalVirulence.PLoSPathogens6:1-15.采用Muscle軟件[1][2]對聚類的進行多序列比對后,將蛋白質(zhì)比對結(jié)果轉(zhuǎn)化為CDS區(qū)域的氨基酸多序列比對結(jié)果;使用TreeBeST軟件[3]對Muscle多序列比對結(jié)果采用NJ法進行的建樹分軟件:Muscle 常用參數(shù)設置設置:-inoutmaxiters軟件:TreeBeST,版本:treebest-: -b參考文獻:Edgar,R.C.(2004)MUSCLE:multiplesequencealignmentwithhighaccuracyandhighthroughput.NucleicAcidsRes.32(5):1792-1797Edgar,R.C.(2004)MUSCLE:amultiplesequencealignmentmethodwithreducedtimeandspacecomplexityBMCBioinformatics,(5)113.TannisthaNandi,CatherineOng,ArvindPratapSingh,etal(2010).AGenomicSurveyofPositiveSelectioninBurkholderiapseudomalleiProvidesInsightsintotheEvolutionofAccidentalVirulence.PLoSPathogens6:1-15.分析結(jié)果文件列表||--Sample|||--[過濾后的數(shù)據(jù)|| |--|| |--|| |--*.Rawdata.[處理前堿基分布圖|| |--[處理前堿基質(zhì)量分布圖|| [處理后堿基分布圖|| [處理后堿基質(zhì)量分布圖|| |--|||--[組組裝結(jié)果|| |--[組裝結(jié)scaffold文件|| |--[組裝結(jié)contig文件|| |--|| |--[組裝結(jié)果統(tǒng)計|| |--[kmer分析圖|| [GC與深度分布圖|| [組組分分析結(jié)果|| |-- [組組分統(tǒng)計|| |--[預測結(jié)果|| |--[預測的GFF3格式文件|||||--[預CDS序列|||||--[的蛋白序列|||||--[長度分布圖|||||--[的結(jié)果統(tǒng)計||||-[重復序列分析結(jié)果|||||--|||||--|||||--[RepeatProteinMasker的初始結(jié)果|||||--|||||--|||||--|||||--[重復序列的統(tǒng)計結(jié)果|||||--[轉(zhuǎn)座子的統(tǒng)計結(jié)果|||||--[串聯(lián)重復序列的統(tǒng)計結(jié)果||||-|||||--|||||--|||||--|||||--|||||--|||||--|||||--|||||--|||--[注釋結(jié)果|| [功能注釋結(jié)果||| |--||| |--[與GO數(shù)據(jù)庫的對應情況||| |--[與wego的對應情況||| |--[與IPR的對應情況||| |--[所對應的GO的二級分類統(tǒng)計直方圖||| |--||| |--||| |--||| |--[KEGG代謝通路圖注釋上的信息||| |--||| |--||| |--||| |--||| |--||| |--||| |--||| |--||| |--||| |--[整合所有注釋結(jié)果的表格文件|||[致病真菌分析||| |--|||||--|||||--|||||--|||||--|||||--|||||-- |--6. [比較組分析|||[共線性分析的結(jié)果|||||--[共線性圖|||||--[兩個物種蛋白集的比對結(jié)果列表|||||--[兩個物種蛋白集的比對結(jié)果統(tǒng)計||||--[構(gòu)建系統(tǒng)發(fā)育樹|||||--*.|||||--*.|||||--*[用SNP序列構(gòu)建的系統(tǒng)發(fā)育樹||||--[分析的結(jié)果|||||--[的聚類結(jié)果|||||--[聚類結(jié)果的統(tǒng)計||||[單拷貝列表||||[單拷貝的統(tǒng)計|||||--*[各內(nèi)兩兩間的Ka/Ks結(jié)果|||||--*[的序列、比對及系統(tǒng)發(fā)育樹等信息||||--[共有-特有分析的結(jié)果|||||--[共有序列文件|||||--[共有在每個樣品中分布矩陣|||||--[非共有序列文件|||||--[非共有在每個樣品中分布矩陣|||||--[所有非冗余序列文件|||||--[所有非冗余在每個樣品中分布矩陣|||||--[統(tǒng)計結(jié)果文件|||||--[非共有在每個樣品聚類分布熱圖|||||--[共有溶解曲線圖|||||--[所有溶解曲線圖|||||--[聚類|||||--[菌株特異統(tǒng)計文件|||||--[菌株特異分析結(jié)果|||||--*.core-[菌株共有-特異的常用數(shù)據(jù)格式介紹1read1fastq文件x1.fq中第一條reads:+abb_aab_aa`a^aba^D[`a_`aaaa`_a_`aread2fastq文件x2.fqreads:+行說1@Reads23ReadsID(ReadsID可省略42 C469_1 C483_1 scaffold5 scaffold5 scaffoldyespaired-列 說組成目標序列的contig或gap序片段類型(W-contig或N-片段ID或gap片段起始位置或gap類片段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論