lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

seqkit软件用法小记

已有 1805 次阅读 2023-6-10 10:45 |系统分类:科研笔记

1.  根据序列长度过滤

seqkit seq -m 1000 raw.fasta >raw.len1000.fasta

seq 选项

-m  序列长度筛选(过滤掉低于-m值长度的序列)

2. 每行序列的输出长度

①为0的话,代表为一整行,默认的输出 长度是每行60个碱基

seqkit  seq  test.fa  -w  100  >  test_100.fa  (指定每行序列的长度为100)

多行序列转换为一行序列

seqkit   seq  test.fa   -w   0   >  test_w.fa

3. 序列全部小写字母  大写字母

① 将序列全部以小写字母的形式输出

seqkit  seq  test.fa  -l  >  test_lower.fa

② 将序列全部以大写字母的形式输出

seqkit   seq   test.fa  -u >  test_upper.fa

4. 序列删除gap(将横杠去掉)

seqkit   seq -g test.fa > test_deGap.fa

5. 通过id/名称/序列删除重复的序列

① 序列重复

seqkit rmdup test.fa -s -i -o clean.fa.gz -d duplicated.fa.gz -D duplicated.detail.txt

② id/名称重复

seqkit rmdup test.fa -n -i -o clean.fa.gz -d duplicated.fa.gz -D duplicated.detail.txt

结果解释:

clean.fa.gz 剔除重复序列(只保留一条<test.fa中首条>)

duplicated.fa.gz 重复的序列

duplicated.detail.txt  统计重复信息

6. 拆分为若干个子序列文件

seqkit split hairpin.fa.gz -s 10000

结果解释:

按照每10000条序列,拆分为若干个子序列小文件

结果在hairpin.fa.gz.split/文件夹中 ,子序列文件名为hairpin.part_00*.fasta


备注:多个参数可以组合使用

【参考】

  1. 序列操作神器:Seqkit_冷冻工厂的博客-CSDN博客

  2. 序列处理工具|Seqkit - 知乎 (zhihu.com)

  3. seqkit的安装与使用 - 简书 (jianshu.com)



https://m.sciencenet.cn/blog-994715-1391238.html

上一篇:MMseqs2软件cluster(聚类)
下一篇:BLAST(NCBI)序列比对结果解释小记

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-18 12:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部