博文

seqkit软件用法小记

已有 1898 次阅读 2023-6-10 10:45 |系统分类:科研笔记

1. 根据序列长度过滤

seqkit seq -m 1000 raw.fasta >raw.len1000.fasta

seq 选项

-m 序列长度筛选（过滤掉低于-m值长度的序列）

2. 每行序列的输出长度

①为0的话，代表为一整行，默认的输出长度是每行60个碱基

seqkit seq test.fa -w 100 > test_100.fa (指定每行序列的长度为100)

②将多行序列转换为一行序列

seqkit seq test.fa -w 0 > test_w.fa

3. 序列全部小写字母或大写字母

① 将序列全部以小写字母的形式输出

seqkit seq test.fa -l > test_lower.fa

② 将序列全部以大写字母的形式输出

seqkit seq test.fa -u > test_upper.fa

4. 序列删除gap(将横杠去掉)

seqkit seq -g test.fa > test_deGap.fa

5. 通过id/名称/序列删除重复的序列

① 序列重复

seqkit rmdup test.fa -s -i -o clean.fa.gz -d duplicated.fa.gz -D duplicated.detail.txt

② id/名称重复

seqkit rmdup test.fa -n -i -o clean.fa.gz -d duplicated.fa.gz -D duplicated.detail.txt

结果解释：

clean.fa.gz 剔除重复序列（只保留一条<test.fa中首条>）

duplicated.fa.gz 重复的序列

duplicated.detail.txt 统计重复信息

6. 拆分为若干个子序列文件

seqkit split hairpin.fa.gz -s 10000

结果解释：

按照每10000条序列，拆分为若干个子序列小文件

结果在hairpin.fa.gz.split/文件夹中，子序列文件名为hairpin.part_00*.fasta

备注：多个参数可以组合使用

【参考】

转载本文请联系原作者获取授权，同时请注明本文来自刘树青科学网博客。
链接地址：https://m.sciencenet.cn/blog-994715-1391238.html

上一篇：MMseqs2软件cluster(聚类)
下一篇：BLAST（NCBI）序列比对结果解释小记

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

刘树青

扫一扫，分享此博文

lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

seqkit软件用法小记

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (2 个评论)

刘树青

全部作者的其他最新博文

全部精选博文导读

lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

seqkit软件用法小记

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

刘树青

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (2 个评论)