




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、二代測序2012.9.201資源數(shù)據(jù)源:http:/http:/數(shù)據(jù)下載方式AsperaFTP數(shù)據(jù)分析交流網(wǎng)站2處理工具匯總http:/ bowtie, bowite2, MUMmer,SOAP,MAQ,bioscopeSNP分析工具: samtools,gatk, SOAPsnp轉(zhuǎn)錄組從頭組裝:Trinity,Velvet Oasis數(shù)據(jù)質(zhì)量分析工具:Fastx-toolkit工具包二代數(shù)據(jù)可視化工具:IGV,Savant,samtools,Gbrowser3二代數(shù)據(jù)結(jié)果輸出格式SAM,BAMhttp:/ example: a line in SAM BWA:HWUSI-EAS172:628
2、C8:4:1:1138:2718 16 chr20 46264803 37 76M * 0 0 ACCCAAGTAAAGTAAGCAATCAGGATTCCAAGAGTCCTCTGGGCGTTTATTGCGACCAAAATCCAGTGGGGAGTTC #?:?=:?ABC?5:8(6:*0:42C-=?C:D:D:(:)1=:DDDBD=:?DD-DDD;B;66= XT:A:U NM:i:3 X0:i:1 X1:i:0 XM:i:3 XO:i:0 XG:i:0 MD:Z:1A42T24A64SAM主體部分1.QNAME,read 名字2.FLAG, bitwise flag,標識read ma
3、p到染色體上的情況3.RNAME,染色體名字4.START,map到染色體上的第一個位置5.MAPPING QUALITY,mapping的質(zhì)量6.CIGAR,比對結(jié)果情況描述(H,S,M)5SAM主體部分7.MRNM,配對read的名字8.MPOS,配對序列的起始位點9.ISIZE,兩個reads間最遠堿基的距離10.SEQQuery:read調(diào)整到與參考基因組同鏈的序列11.reference QUAL,read的質(zhì)量(ASCII-33)6SAM FLAG0X0001 = 1 the read is paired in sequencing0X0002 = 2 the read is ma
4、pped in a proper pair0X0004 = 4 the query sequence itself is unmapped0X0008 = 8 the mate is unmapped0X0010 = 16 strand of the query0X0020 = 32 strand of the mate0X0040 = 64 the read is the first read in a pair0X0080 = 128 the read is the second read in a pair0X0100 = 256 the alignment is not primary
5、0X0200 = 512 QC failure0X0400 = 1024 optical or PCR duplicate7SAM格式附加部分NM Edit distance 編輯距離,與參考基因組的差異堿基數(shù)目MD mismatching positions/bases 錯配的堿基或位置X0 最優(yōu)匹配位置的數(shù)目X1 次優(yōu)匹配位置的數(shù)目XN 參考基因組中模糊堿基的數(shù)目(N)XM 錯配堿基的數(shù)目XO 打開的gap數(shù)目XG 打開的gap中延伸的堿基數(shù)目XT Type:Unique/Repat/N/Mate-sw XA 其他mapping位置報告8二代數(shù)據(jù)分析流程9Sra格式數(shù)據(jù)解壓fastq-du
6、mp option -A / -accession賦予解壓文件新的名字-split-3 分割雙端測序數(shù)據(jù)Order1) fastq-dump -split-3 SRR427121.lite.sra10Read filterFastx-Toolkit1) $ fastx_quality_stats fastx_quality_stats -h -i INFILE -o OUTFILE2) $ fastq_quality_boxplot_graph.shINPUT.TXT -t TITLE -p -o OUTPUT3) $ fastx_trimmer -h -f N -l N -z -v -i I
7、NFILE -o OUTFILE4) $ fastx_nucleotide_distribution_graph.sh-p -i INPUT.TXT -o OUTPUT -t TITLE5) $ fastx_trimmer -h -f N -l N -t N -m MINLEN -z -v -i INFILE -o OUTFILE6) $ fastq_quality_trimmer -h -v -t N -l N -z -i INFILE -o OUTFILEhttp:/fastx_toolkit/galaxy.html11Reads Quality Statsfastx_quality_st
8、ats -i in.fastq -o out.stat12Shortgun reads trimTrimed Sitefastq_quality_boxplot_graph i out.stat o output t title13Fastx-toolkit 實踐Order2) nohup fastx_quality_stats -i SRR427121_1.fastq -o SRR_1.stat -Q33 &Order3.1) fastq_quality_boxplot_graph.sh -i SRR_1.stat -o SRR_1.png D:花SRR_1.pngOrder3.2) fas
9、tx_nucleotide_distribution_graph.sh -i *stat -o SRR_1_nucleotide_distribution D:花SRR_1_nucleotide_distribution.png14Fastax-toolkit結(jié)果分析15Fastx-toolkit結(jié)果分析Trimed Sitefastq_quality_boxplot_graph i out.stat o output t title16Trim fastqfastq_quality_trimmer -t 20 -l 15 -i SRR427121_1.fastq -o ecoli_1.fq
10、-Q33fastq_quality_trimmer -t 20 -l 15 -i SRR427121_2.fastq -o ecoli_2.fq -Q3317Reference genome mapping: BWA1) 建立索引bwa index -p prefix -a algoType -c -p 建立的索引的名字-a 構(gòu)建索引使用的算法,is試用的基因組長度2GB,bwtsw適合的基因組長度10MB-c構(gòu)建color-space 索引,適合solid數(shù)據(jù)比對bwa index -p Ecoli -a is NC_000913.fna2)alnbwa aln -n maxDiff -o
11、maxGapO -e maxGapE -d nDelTail -i nIndelEnd -k maxSeedDiff -l seedLen -t nThrds -cRN -M misMsc -O gapOsc -E gapEsc -q trimQual perl get_consesus_read.pl ecoli_1.fq ecoli_2.fq ecoli_1_trim.fq ecoli_2_trim.fq ecoli_trim.fq& bwa aln -t 10 ./././chromosome/Ecoli ./ecoli_1_trim.fq -f ecoli_1_trim.sai&bwa
12、 aln -t 10 ./././chromosome/Ecoli ./ecoli_2_trim.fq -f ecoli_2_trim.sai&bwa aln -t 10 ./././chromosome/Ecoli ./ecoli_trim.fq -f ecoli_trim.sai18Reference genome mapping: BWA3) samsebwa samse -n maxOcc bwa samse ./././chromosome/Ecoli ecoli_trim.sai ./ecoli_trim.fq -f ecoli_trim.sam4) sampebwa sampe
13、-a maxInsSize -o maxOcc -n maxHitPaired -N maxHitDis -P bwa samse ./././chromosome/Ecoli ecoli_1_trim.sai ./ecoli_1_trim.fq ecoli_2_trim.sai ./ecoli_2_trim.fq -f ecoli_trim_paired.sam19Reference genome mapping:bowtie建立索引bowtie-build options* -f reference input files (fasta)-c reference from command
14、line-C/-color color base (for solid)bowtie-build -f NC_000913.fna ecoli比對bowtie options* -1 -2 | -12 | 20Bowtie 必須文件 參數(shù)bowtie options* -1 -2 | -12 | -1 逗號分隔的文件 seg1-2 逗號分隔的文件 seq2-12 構(gòu)建的以tab鍵分隔的文件-q fastq格式文件-f fasta格式文件r 只有序列的文件,每行一條序列S single end reads-C color base文件比對-Q with f and C-Q1 -Q2 combin
15、ation with f -1 and C-integer-quals -solexa1.3-quals -solexa-quals -phred33-quals -phred64-quals21Alignment 參數(shù)選擇-v 允許的最大mismatch的數(shù)目-l seed 的長度影響速度,l越大,速度越快-n seed 中允許的錯配數(shù)-I 配對序列允許的最小插入長度-X 配對序列允許的最大插入長度-fr 默認533522Output參數(shù)選擇-k 限制為每個read輸出的最大mapping 位置數(shù)目-a 報告全部的mapping 位置-m 不報告mapping位置大于m的read-M 隨機報告mapping位置大于M的mapping結(jié)果-best 確保bowtie匯報最好的mapping(only for single end read)-strata 相當于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 股份回購與公司戰(zhàn)略調(diào)整及股權(quán)激勵協(xié)議
- 股權(quán)激勵與員工離職補償協(xié)議
- 工程管理師2025年考試模擬題及答案
- 2025年質(zhì)量管理體系認證考試試題及答案
- 殘疾人自強不息的事跡范文(5篇)
- 2025年藝術(shù)創(chuàng)意產(chǎn)業(yè)人才考試試題及答案
- 2025年現(xiàn)代企業(yè)管理與決策能力考試試卷及答案
- 2025年數(shù)字營銷與社交媒體應(yīng)用測試試卷及答案
- 2025年體育專業(yè)教師資格考試題及答案
- 2025年社區(qū)服務(wù)管理專業(yè)考試題及答案
- 匯川伺服性能調(diào)試指導(dǎo)
- 《億安科技作手教你炒股系列》
- 國家開放大學Python程序設(shè)計形考任務(wù)實驗六-互聯(lián)網(wǎng)評論數(shù)據(jù)分析及其展示綜合案例
- 北京市2024年中考道德與法治真題試卷(含答案)
- 頂管工程施工方案方案
- 2024年度危廢培訓(xùn)完整課件
- 結(jié)婚函調(diào)報告表
- 四年級數(shù)學下冊期末考試卷及答案1套
- 建筑工程技術(shù)專業(yè)實習總結(jié)
- HG∕T 4712-2014 甲氧胺鹽酸鹽
- 小學必背古詩練習題(四年級下冊)(含答案)
評論
0/150
提交評論