lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

kraken2个性化建库

已有 1815 次阅读 2023-8-11 21:53 |系统分类:科研笔记

1. kraken2安装

1.下载

Kraken2下载地址:https://github.com/DerrickWood/kraken2/releases/tag/v2.1.3/

image.png

解压kraken2-2.1.3/

image.png

2.安装到指定位置(../install/

install_kraken2.sh ../install/


2. 个性化建库

创建个性化库patho步骤

1.下载ncbi-taxonomy分类库

install/kraken2-build --download-taxonomy --threads 24 --db patho

结果:生成patho/taxonomy/

image.png

【注意】此步下载三个压缩包并解压,但是速度很慢。建议使用ascp软件下载到patho/taxonomy/路径下,程序会自己检测到已存在压缩文件,并解压。

image.png

2.添加自定义库的fna文件(patho.fna

install/kraken2-build --add-to-library patho.fna --db patho

结果:生成patho/library/patho/taxonomy/prelim_map.txt

注意此步可能会报错,因为可能patho.fna库里面序列accessionsequence ID),kraken2就是识别不出来(即sequence ID不在nucl_gb.accession2taxidnucl_wgs.accession2taxid文件中)。修改kraken2-2.1.3/scripts/scan_fasta_file.pl,红框一行代码#注释掉即可。

image.png

如果有多个fa文件可使用:find genomes/ -name '*.fa' -print0 | xargs -0 -I{} -n1 kraken2-build --add-to-library {} --db $DBNAME

3.构建个性化库

install/kraken2-build --build --db patho/

结果:patho/生成hash.k2d,opts.k2d,taxo.k2d,seqid2taxid.map(accession与taxid对应关系表

备注:--threads参数可以缩短建库时间

4.使用个性化库,物种鉴定(seqs.fa测序文件)

install/kraken2 --db patho/ --threads 20 --output result.profile --report result.report seqs.fa


【补充】


*低复杂度序列处理

1.屏蔽低复杂度序列可以帮助防止Kraken 2的结果中出现误报,因此此功能作为默认选项添加到了Kraken 2中的库下载/添加过程中。

2.NCBI BLAST+套件中使用dusmasker(核苷酸序列)和segmasker(氨基酸序列)插件屏蔽低复杂度序列,如果本地没有安装并且没有在用户默认环境变量中,使用kraken2-build建库会失败

备注:--no-masking跳过对低复杂度序列的屏蔽。


*特殊数据库构建(不遵循NCBI分类法的常见用例,目前主要为16S类型)

kraken2-build --db $DBNAME --special TYPE

针对16S测序项目,TYPE支持从三个公开可用的16S数据库构建Kraken 2数据库:greengenesrdpsilva


*添加其他基因组,但基因组必须满足以下要求(即个性化建库)

1.必须是fasta格式

2.每个序列的sequence ID(标题行上>和第一个空白字符之间的字符串)必须包含NCBI accession以允许Kraken2查找正确的分类群,或者使用kraken:taxid直接赋值分类ID(适用于未从NCBI下载的序列)。

sequence ID中添加字符串kraken:taxid|XXXXXXtaxon ID),如下:

image.png







https://m.sciencenet.cn/blog-994715-1398721.html

上一篇:seqkit replace使用说明

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 03:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部