基因家族生信分析報(bào)告_第1頁(yè)
基因家族生信分析報(bào)告_第2頁(yè)
基因家族生信分析報(bào)告_第3頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余13頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因家族生信分析 一、什么是基因家族 概念:是來(lái)源于同一個(gè)祖先,有一個(gè)基因通過(guò)基因重復(fù)而產(chǎn)生兩個(gè)或更多的拷 貝而構(gòu)成的一組基因, 他們?cè)诮Y(jié)構(gòu)和功能上具有明顯的相似性, 編碼相似的蛋白 質(zhì)產(chǎn)物。 劃分: 按功能劃分:把一些功能類似的基因聚類,形成一個(gè)家族。 按照序列相似程度劃分:一般將同源的基因放在一起認(rèn)為是一個(gè)家族。 1. 常見基因家族: WRO 基因家族:是植物前十大蛋白質(zhì)基因家族之一,大量研究表明, WRKY 基因家族的許多成員參與調(diào)控植物的生長(zhǎng)發(fā)育,形態(tài)建成與抗病蟲。 NBS-LRF 抗病基因家族:是植物中最大類抗病基因家族之一。 MADS-BO;基因家族: 是植物體的重要轉(zhuǎn)錄因子, 它

2、們廣泛地調(diào)控著植物的 生長(zhǎng)、發(fā)育和生殖等過(guò)程。在植物中參與花器官的發(fā)育,開花時(shí)間的調(diào)節(jié),在果 實(shí),根,莖,葉的發(fā)育中都起著重要的作用。 熱激蛋白 70 家族(HSP70 是一類在植物中高度保守的分子伴侶蛋白, 在細(xì) 胞中協(xié)助蛋白質(zhì)正確折疊。 基因家族分析流程: 基因的加倍復(fù)制利用蛋白保守域結(jié)構(gòu)提取號(hào)在 Pfam 數(shù)據(jù)庫(kù)提取其隱馬爾科夫模型矩 陣文件(*.hmm) 在數(shù)據(jù)庫(kù)(Ensemble、JGI、NVBI)下載你所需要的物種的基因組數(shù) 據(jù)(*fa,*gff ) 在虛擬機(jī)中 Bio-Linux 中的 hummsearch 程序,用隱馬爾科夫模型矩 陣文件在蛋白序列文件中搜索含有該保守結(jié)構(gòu)域的蛋

3、白 將蛋白序列導(dǎo)入 MEGA 軟件構(gòu)建進(jìn)化樹(可以闡明成員之間系統(tǒng)進(jìn)化 關(guān)系,從進(jìn)化關(guān)系上揭示其多樣性) 利用 MEM 搜索蛋白質(zhì)的保守結(jié)構(gòu)域 利用 MEM 搜索基因家族成員的 motif 可以揭示基因家族在物種 的多樣化及其功能,如果他們都含有相同的 motif 表明其功能具有相 似性,如果部分家族成員含有其他不同的 motif,很可能這些成員有其 他特異功能,或者可以歸分為一個(gè)亞族 繪制基因染色體位置圖 從*.gff 文件中抽取我們搜索到的基因位置信息, http:/mg2c.iask.i n/mg2c_v2.0/ 在線繪制基因染色體位置圖 通過(guò)染色體位置分布,可以了解基因主要分布字哪條染

4、色體上,及是 否能形成基因簇(被認(rèn)為是通過(guò)重組與錯(cuò)配促進(jìn)基因交流) 基因結(jié)構(gòu)分析 從 gff 文件中抽取基因的結(jié)構(gòu)信息,繪制轉(zhuǎn)錄本結(jié)構(gòu)圖。 計(jì)算串聯(lián)重復(fù)基因的 Ka,Ks 1. 首先將篩選到的基因的 cds 序列進(jìn)行多序列對(duì)比,篩選 identity 75% tength 大于對(duì)比的兩條序列中較長(zhǎng)的那條的長(zhǎng)度的 75%將 篩選到的基因分別用 clustalw 進(jìn)行比對(duì), 比對(duì)結(jié)果導(dǎo)入 KsKs_Calculster 計(jì)算 Ka, Ks、 Ka/kJ 比,計(jì)算核苷酸的非同義替代(ka)與核苷酸的同義替代 (ks)的平均速率。 2. Ka/ks 比值1 表明:通過(guò)純化選擇降低了氨基酸變化的速率;比

5、 值=1表示中性選擇;比值1,表明這些基因可能已經(jīng)收到積極選 擇,有利于適應(yīng)性遺傳,這些受正向選擇的基因?qū)⒆鳛橐院蟮难?究重點(diǎn)。 軟件的安裝 從圖片中獲得進(jìn)入 NCBI-blast 官網(wǎng)復(fù)制 blast-linux 版本的 基因家族分析基因家族分析 linux 軟件安裝列表軟件安裝列表 iinw 淖家旗分折iln u祇件左裝Sil表 曲下鬆件3S左爭(zhēng)屈我 左裝方法可種戟件專菇僥明 hrrwisoardh. http nrrmiof org/ pe*1:itH 5丄時(shí)嘏;刊I MwntcM5(xrwfQrghe noV KaKs_iGaicuietor2.0 : lips sow ierixge

6、 el-prui tsaksi CUMIQT 2 在 Linux 終端 1. blast 的安裝 #wget blast #tar xvfz 文件名解壓縮文件 # mv 解壓縮文件 /root/local/app # mv 解壓縮文件 blast # vi .bashrc #在最后一行添加 出 #source .bashrc #blastp -versi on export $PATH=/root/local/app/blast/bi n:$PATH 運(yùn)行 查看是否安裝成功。 并保存退 2. hummer 的安裝 #yum in stall -y wget / #wget hmmer 源碼 安

7、裝 wget # vi .bashrc #(在最末端添加的語(yǔ)句)PATH=$PATH:/biosoft/ hmmer-321/binaries #yum in stall -y gcc #./c on figure #make #make check #make in stall #which hmmsearch 查看是否安裝成功。 3. perl的安裝 #wget 源代碼 # tar xvfz perl-5.28.1.tar.gz 解壓縮 #./c on figure #make #make in stall 安裝完成。 3.bioperl 的安裝 #wget -O - | bash #pe

8、rlbrew in stall-cpa nm #/root/perl5/perlbrew/bin/cpanm Bio:Perl 三、具體操作: 1. 保守域結(jié)構(gòu)分析 下載蛋白保守結(jié)構(gòu)域文件、cds、cDNA gff 注釋文件和隱馬爾科夫矩陣模型。 以擬南芥為例: 4 1AIRI O.cclf| I機(jī) U* fl qn!bi 11 “ UH4 *v *w-r- -i. 1 gwij 11 jV pMjuln W 131*1 &. 1 p 沖眄 rl VUfjlVFLn 7l2in $4 .1 jTH ipaj up-in 144JJSB5 S 斥 k.E 了羽 冊(cè) 鼻 Mi, 13 31

9、 -! tM- IftlBI L9 JR : & Ariito Ldflpi i-s EhaLlMi. HHLI L3 b 1 db idin . s MM- FJJIJi -1 UldTS H.lii 1 gM lifflA fm |iFlH ” 1 lAfU |Up|A .I ituiltvll Out jlnifl rootlocBlhost sharel# gunzip Arabldopsis_thaIiana.TAIR10.cdna.a11.fa.gz rootlocalbost slHrielJf 11 (一個(gè)命令解壓多個(gè)文件:gunzip*gz) 接下來(lái)用 hummsea

10、rch 尋找含有該蛋白保守結(jié)構(gòu)域的蛋白及核酸序列 安裝 hummsearch yum in stall -y wget / 安裝 wget #wget hmmer 源碼 # vi .bashrc #(在最末端添加的語(yǔ)句)PATH=$PATH:/biosoft/ hmmer-321/binaries #yum in stall -y gcc #./c on figure #make #make check #make in stall #which hmmsearch 查看是否安裝成功。 解壓文件 日 ri 白 conda-Es.c+g hmaer-3 21. hvime root(aiocal

11、host *# mv hmer-3,2.1 /usr/lacal/app UiSvt h 1 丹、 & JIBM &JI IlflliTt t4l44 Z 4 m再A刊|理 移動(dòng)到 APP 目錄下面 I ravtfilvcalh t 珂W U - r 1 T r K ” M# JUN 11 3V3I rnnlIQ OIEKF -n- F - - F - - 1 561 14J| JIM 2# It ontlg.Bubi 血鼻篙 1 l JiM Ll 3t : E9rWi:r-ir-i. 4 MI9 gaM- 3A SI舞 der IMIJII 1 di E1 i l 坤 gBG

12、5 吋 2B EMe-1 tJrwxrw:! VVK ) - u i. M 2B 06 2$ rw r- 1 m JiM 13 3* IWAU -rw-r-r-_ 1 g-EPw tJ16 JUH n xnitall-ih 4r.r: Li i *-jq. 1 巧 12? 28 it n I I -rw-iT f 1 j J i 333B JUB ii 2 LKEVSE fM* r - - 11 43S Jutt JJ ” r- TQ& 加 n Ttll IT邱心 drwsr-ir-z. 2 g : K5 如 2B BL: Jl proTiBArk BfWrir T . J 273(

13、)un 聆】 ” F f - _ 1 44 JiiA :三 “rw*n- t MW JUP 估 re If -1H 501 柄 知 2 i抻 1MT Epf1l drwxrii-x. 立 qaus- DL tntuiLt rirwsF-ir 1 g*Kfi- 托 l 2 -rw-r-f 1 503 Jd* G9M Lk 衛(wèi) quLd. pdl Gniac|iLAlnm aoal* CQ imtr I raoitlfflcalh t hrs+r* li Z&llrx L 在 app 目錄下面新建文件夾 mkdir hmmer 將 hmmer-3.2.1 移至 U hmmer 目錄下面 m

14、move -v c:/hmmer-3.2.1 c:/hmmer drr sr - IB Ml 屮血 446 Jun 13 201B 1iMi,!r S./. I -PM- r- r- - g. I rooX rQt 7792ffey 15 輛 IntaKr tt礬 (rootiloCBllhCiSt t wrjf ITR -f hrwwr,tflr ,gr rait|ilKAlhoBt hHwrJf ll total 斗 drwr-Kr.Mr 1 5 1 啊啊 Jun 11 2l8 hf 刪除安裝包 打開文字編輯器 vi /.bashrc 擊-Eihrt ft Ustr specific 占冋

15、 TuncTlos l.皿 ie -Ifi alia1; cp-cp -i1 rw-rw 1 * SdLircB global init-iorK- If | -f /atc/b-aahrc : then 亠 /vtc/bHhrc texport $PAIH=/usr/local/app/hmner/bin:$PATH| 在文字編輯器里最后一行添加以上容 Installed: wget.x86_64 0:1.14-16.e!7_6+l Complete! 安裝好 wget E492i Not an editor comaand: export $PATH=/usr/locaVipp/hm*er

16、/bin!JPATHI t ihmue r - J. 2. L# m-5rvefi5 ijbxslt-devel libeventHEMEl atp libt ol - bison libtool vifl-enhancBd 出現(xiàn) complete 安裝完成 UtcMted; f ftry”i 91 轉(zhuǎn)-斜 0:2 軒 171 t!T_fri 吃屮Igp* x&_4 fl: 2,4.4421,fl7J& (hapendancy iUpdfltad!: krbS-liBH.j j6_M ft: 115.1-37-17_6 1 iitdc*+.s06_64 fl:4.IS-5-36

17、l7_fi.2 口lite .AB6_M 1:1_2k 16 *17_6.1 C-onvilete1 (FMtfl觸C ihmnr- J,2,1 J# - “ hdih:; cMMfid AQt fund Irixrtflocelhiwt hmnpr-J.2.1 )# 悴君H Jaratrarig iMistij 矗電h 帕巾砂 met found I rwtilocailhMt hiwwr-.2.1)* 噸混d CSMi p-ash:套涯二 CSDII: canand not found FDOf hmwr-3.2.1 |f 屢戈三 hi1 /blsQ.csti. rbet/Jd0riQ/d

18、r11c 1 e/tfetdlls /7gniAMJi ba詁:ftXe https .ccln 1flet/Jar&trcno/artlcW/4?talts/7lS5M * sucli TilLe 軒 direc tfrry |rwtflac lh t hnwr-3.2.1)*皈祝會(huì)明i事之為卻主斥則丈章 蒸戟于隕上袴文tfttT iMsil:騒祝*立杓博主厚刨立:r WffiaiW上1#文雜SN : 5nd not found | FHEtldCAlhMt hnWF-3.9.1|# I #source /.bashrc rcotGilflcaLhast hinm|# sour&am

19、p; -/.bashrt LicDtOlotalhust h耐i # 11 total 4 %-一1 roar root 9 ftiy 24 64:17 bash re diwxr*xr-K. 16 561 甘胡砂 4的6 Jun 13 2818 btawrJ.2.1 rcotglncEslhast h m r)4r Is bd&hrc h miner-3 P1 rootgloc nlfinst tiamr J# | #which hmmsearch rootlocalhost hmmer-3.2-1 which hmmsearch /usr/local/bin/hmmserch rD

20、otQlocalhost hmmer-3.2.1# 至此 hmmer 安裝完成。 虛擬機(jī)操作:JnlemaL plpel 1 me- stat. 1st les. EMunyT aisdiek CE I 1 p-axsnd f*| |.1f r- 絆熱 hifls f LILtEX- Z117 葉抽胡 UK W7 Fwd riller= 557 Doviin EMHzh vfmrr 斗 1于 1 CMJ ILK: 1.gr fe v; rFpfwIM numr Ihrrnlinld V 酹:睥 l 二Wf il 1. 導(dǎo)入下載好的文件; 2.hmmsearch -cut_tc - 可以用 ed

21、itplus 打開.txt 文件 gfil-Mgg 叫 iwT JJ J J J J J iwT JJ J J J J J J J J J J JJ J J J J J- -.J EE .J EE 二r r二二二 iitfEEExX 5 ims:iitfEEExX 5 ims:做iiisliiisl 3. perl domain_xulie.pl 結(jié)果文件.txt 蛋白序列文件 domain.fa 1e-20 4. clustalw 進(jìn)行多序列比對(duì),得到 aln 文件和 dnd 文件。 5. hmmbuild 擬南芥特異的 hmn 模型文件 domain.aln 6. hmmsearch cu

22、t_tc domtblout result.txt newhmm 文件 蛋白質(zhì)序 列文件 7. 在 Excel 中,根據(jù)特定的 evalue 進(jìn)行篩選,并對(duì)第一列進(jìn)行去重復(fù),得到第 一列去重復(fù)的 id,保存為 id.txt 8. 用 perl 腳本根據(jù) id 提取序列 Per get_fa_by_id.pl id.txt 蛋白序列 wenjain 結(jié)果輸出文件 可以根據(jù)的得到的序列文件進(jìn)行后續(xù)的構(gòu)建進(jìn)化樹、 motif 分析等。 2. 搜索基因家族成員的 MOTIF 2.1 需要準(zhǔn)備的文件 1. 擬南芥 NBS 基因蛋白質(zhì)序列 2. 蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型矩陣文件 2.2 MOTIF

23、的搜索 使用 meme件 命令: memenbs_pep.fa -protein -oc nbs_motif -nostatus -maxsize 600000 -mor anr -nmotifs 10 -minw 6 -maxw 50 搜索結(jié)果存放在 nbs_motif 文件夾中。文件夾中的 eps 文件可以用 AI 打開編輯, 可以另存為 png 或 jpg 格式,也可打開網(wǎng)頁(yè)版,也可用 tbtools 軟件打開,下載 motif 在基因上的位置信息。 3. 繪制基因在染色體上的位置圖 3.1 需要準(zhǔn)備的文件 1. 擬南芥 NBS 基因 id 2. 擬南芥的注釋文件( gff3 文件) 3

24、. 擬南芥基因組長(zhǎng)度 4.1 在線繪圖工具: MapGene2Chrom 4.2 samtools faidx 擬南芥.dna.toplevel.fa 可得到擬南芥.dna.fa.fai 文件 該文件包括 各個(gè)染色體,染色體長(zhǎng)度。 4.3 對(duì)基因的 id 文件在 Excel 中進(jìn)行分列,去重復(fù)處理。 4.4 使用處理過(guò)的 id 文件,對(duì)擬南芥的注釋文件進(jìn)行篩選 使用 perl 腳本得到基因在染色體上的位置。 命令: perl get_gene_gff.pl -in1 基因的 id 文件 -in2 擬南芥 gff3 文件 -out 新文件名稱 4.5 新文件存放的是基因在染色體上的位置 4.6

25、在在線文件 Map Ge ne2chrom 中,將基因在染色體上的位置信息文件復(fù)制到, input1 框中,在 input2 中粘入 samtools 得到的 fai 文件。 4. 繪制轉(zhuǎn)錄本的結(jié)構(gòu)圖 4.1 需要準(zhǔn)備的文件 1. 擬南芥 NBS 基因轉(zhuǎn)錄本 id (通過(guò)家族成員鑒定得到的蛋白 id 文件) 2. 擬南芥基因的注釋文件( gtf 文件) 3. 在線繪圖工具: Gene Structure Display Server 2.0 http :/./index.php 4.2 具體方法 1. 準(zhǔn)備 gtf 文件:輸入命令:gffread gff3 注釋

26、文件-T -o 輸出文件(gtf 文件) 2. editplus 打開 gtf 文件,去除” transcript: ” 3. 使用 perl 腳本提取擬南芥轉(zhuǎn)錄本結(jié)構(gòu)信息: 命令: perl get_gtf.pl -in1 擬南芥轉(zhuǎn)錄本 id 文件 -in2 gtf 文件 -out 輸出文件( nbs_gtf.txt ) 4. 通過(guò)在線繪圖工具,進(jìn)行繪圖。 5. 篩選出串聯(lián)重復(fù)基因 5.1 準(zhǔn)備文件 1. 擬南芥 NBS 基因 CDS 序列 串聯(lián)重復(fù)基因篩選標(biāo)準(zhǔn)【 ( a)length of alignable sequence covers75% of longer gene,and(b)

27、 similarity of aligned regions 75% 】 參考文 獻(xiàn): Extent of gene duplication in the genomes of Drosophila, nematode, and yeast. 2. 由于篩選時(shí)產(chǎn)生的文件較多,因此創(chuàng)建新的目錄: mkdir 新目錄 3. 用 editplus 打開家族成員的 id 文件,對(duì)轉(zhuǎn)錄本 id 進(jìn)行處理,使一個(gè)基因只 拿一個(gè)轉(zhuǎn)錄本。 4. 把 id 復(fù)制到 Excel ,首先排序處理,然后進(jìn)行分列,然后以第一列刪除重復(fù) 值。最后將第一列和第二列進(jìn)行合并。將處理好的 id 導(dǎo)入 Linux 。 5. 使用

28、 perl 腳本提取 cds 序列:命令: perl get_fa_by_id.pl id 文件 擬 南芥 cds 序列文件 cds.fa 6. 使用 blast 軟件篩選串聯(lián)重復(fù)基因 6.1 建立目標(biāo)序列的數(shù)據(jù)庫(kù): makeblastdb -in cds.fa -dbtype nucl -title cds.fa 6.2 進(jìn)行多序列比對(duì): blastn -query cds.fa -db cds.fa -evalue 1e-20 -outfmt 9 -out result.txt 6.3 用 editplus 打開 6.4 得到 cds 序列的長(zhǎng)度,使用 samtools 工具建立索引:命令

29、:samtools faidx cds.fa 6.5 用 perl 腳本對(duì) result.txt 進(jìn)行篩選, perl KAKS_SHAIXUAN.pl -in1 cds.fa.fai -in2 result.txt -out cleanresult.txt 6.6 用 editplus 打開,將容復(fù)制到 Excel ,在 id 后插入一列用公式: if (A1B1,A1 &B1,B1 &A)然后全選,以第 C 列刪除重復(fù)值。并保存到新的文件中, 并導(dǎo)入到 Linux 中 7. 計(jì)算串聯(lián)重復(fù)基因的 KaKs。 7.1 準(zhǔn)備文件 1.串聯(lián)重復(fù)基因的 CD 茄列文件 7.2 將成對(duì)

30、的串聯(lián)重復(fù)序列保存在一個(gè)文件中。 、 方法一:復(fù)制需要找到的序列的 id ,在 editplus 中按 ctrl+F 搜索,找到后復(fù) 制粘貼到一個(gè)文件中。 方法二:首先將成對(duì)的 id 保存在同一個(gè)文件,導(dǎo)入到 Linux 中,在 Linux 中, 利用 perl 腳本提取序列: perl get_fa_by_id.pl 新的 id 文件 cds.fa 文 件 id1.fa 7.3 計(jì)算 KaKS 1. 計(jì)算之前需要使用 CLUSTA 對(duì)序列進(jìn)行比較。可獲得 idl.aln。 2. 使用 KaKs_calculator 工具將 id1.aln 文件轉(zhuǎn)換成 id1.axt 文件 命令: axtve

31、nvertor id1.aln id1.axt 3. 計(jì)算 KaKs 輸入命令:KaKs_calculstor -i id.axt -o id1_kaks.txt 4. 如果報(bào)錯(cuò),則把兩條序列長(zhǎng)度保持一致。 依此將所有的串聯(lián)重復(fù)基因?qū)Γ?進(jìn)行 計(jì)算。 四基因家族成員的鑒定(未知隱馬爾科夫模型) 1. 鑒定測(cè)略 ?在 NCBI 數(shù)據(jù)庫(kù)中盡量多下載幾個(gè)物種的需要鑒定的蛋白保守結(jié)構(gòu)域序列,以 及所要研究物種的所有蛋白序列 ? 在虛擬機(jī)中本地建庫(kù),并進(jìn)行 blast 建庫(kù)命令: makeblastdb -in 研究物種的蛋白序列文件 -dbtype prot -title 庫(kù) 名稱 ? 進(jìn)行序列比對(duì)

32、命令: blastp -query 下載的多個(gè)物種序列文件 -db 庫(kù)名稱 -evalue 1e-10 -outfmt 6 -out 結(jié)構(gòu)域 .blast ? 使用 sed 命令去除表頭和結(jié)尾得到新的 new 結(jié)構(gòu)域 . blast ? Awk print$1 結(jié) e 構(gòu)域.Blast |less 可查看打印的結(jié)果 ? Awk print$1 結(jié)構(gòu) W 或.Blast id.txt ? cat id.txt|sort|uniq idd.txt 去重復(fù) ? Perl get_fa_by_id.pl idd.txt 去重復(fù) 蛋白序列 wenjain 結(jié)果輸出文件 ?在 Pfam 或者 NCBI 的

33、 cdd 中搜索檢查是否有相關(guān)蛋白結(jié)構(gòu)域。 之后再進(jìn)行 motif 分析 一些命令及軟件應(yīng)用說(shuō)明 (參考一些視頻資料) hmmsearch 使用說(shuō)明 用途:利用蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型搜索蛋白序列中具有該保守結(jié)構(gòu)域的蛋白 用法: hmmsearch -cut_tc - 說(shuō)明: result.txt 是輸出的結(jié)果文件, *.hmm 在 pfam 數(shù)據(jù)庫(kù)下載的模型, pep.all.fa 物 種基因組所有蛋白序列 hmmbuild 使用說(shuō)明 用途:利用 clustalw 比對(duì)生成的 aln 文件構(gòu)建蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型 用法: hmmbuild new.hmm domain.aln

34、 說(shuō)明: new.hmm 是結(jié)果文件也就是構(gòu)建的蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型, domain.aln 是 clustalw 比對(duì)生成的 aln 文件 domain_xulie.pl 腳本使用說(shuō)明 用途:提取 hmmsearch 搜索結(jié)果中蛋白序列中保守結(jié)構(gòu)域的序列, 用于構(gòu)建新的物種特異的 蛋白保守結(jié)構(gòu)域的隱馬爾科夫模型 用法:perl domain_xulie.pl (腳本不在使用目錄下要寫全路徑) hmmoutfile pep.all.fa domain.fasta E-value 說(shuō)明: hmmoutfile 是 hmmsearch 搜索結(jié)果文件 pep.all.fa 物種基因組所有蛋

35、白序列 domai n. fasta 是結(jié)果存放文件也就是蛋白序列中保守結(jié)構(gòu)域的序列, E-value 是提取序列 時(shí)設(shè)定的 E 值 get_fa_by_id.pl 使用說(shuō)明 用途:通過(guò) ID 號(hào)獲取其相應(yīng)的基因或蛋白序列 用法:perl perl get_fa_by_id.pl id.txt cds.fastat id_cds.fasta 說(shuō)明:id.txt 是包含你的 ID 的文件,cds.fasta 是你叢數(shù)據(jù)庫(kù)中下載的包含所有 cds 序列 的文件,id_cds.fasta 是輸出文件容是 ID 對(duì)應(yīng)的序列 samtools faidx 用途:提取 fasta 文件信息 用法:samt

36、ools faidx *.fa 說(shuō)明:輸入文件是 fasta 文件,自動(dòng)生成輸出目錄 *.fa.fai, 結(jié)果的 fai 文件第一列是你輸 入的 fasta 文件的 ID 第二列是其序列長(zhǎng)度 Gffread 使用說(shuō)明 用途:將基因組注釋文件 gff3 轉(zhuǎn)化成基因的注釋文件 gtf 用法:gffread my.gff3 -T -o my.gtf 說(shuō)明:my.gff3 是輸入文件基因組注釋文件,my.gtf 是輸出文件是基因的注釋文件 Get_ge ne_gff.pl 用途:想要繪制基因的染色體位置圖必須要拿到基因在染色體上的具體信息, 該腳本就是從 總的 gff 文件抽去你需要的基因的信息如:所在染色體,起始終止位置等信息 用法:Perl Get_gene_gff.pl -in1 gene_id.txt -in2 my.gff3 -out gene_location.txt 說(shuō)明:gene_id.txt 是第一個(gè)輸入文件基因的 ID 文件,my.gff3 是第二個(gè)輸入文件是物種 基因組所有蛋白序列 ,gene_location.txt 是結(jié)果輸出文件 Get_gtf.pl腳本使用說(shuō)明 用途:從基因注釋文件 gtf 文件中提取轉(zhuǎn)錄本的結(jié)構(gòu)信息 用法:perl get_gtf.pl -in1 id.txt -in2 gen e.gtf -

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論