lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

vsearch软件cluster(聚类)结果解释

已有 2901 次阅读 2022-6-1 17:20 |系统分类:科研笔记

命令:

vsearch --cluster_fast test.fasta --id 0.97 --centroids ./test.clusters97.fasta --uc ./test.clusters.uc


解释:

--id 聚类阈值

--centroids 聚类之后的fa文件

--uc 聚类信息(uclust-like format)


结果:

--uc (共10列)

1.类型(S, H, C

    a cluster centroid (S) :某一聚类的代表性序列

    a hit (H) assigned to a cluster :某一聚类的非代表性序列(即通过阈值,后期去除的)

    cluster records (C) :某个聚类的整体信息

2.聚类号

3.

  ccentroid length (S) 如果第1列类型是S,此列是Centroid的序列长度。

  query length (H)如果第1列类型是H,此列是query的序列长度。

  cluster size (C)如果第1列类型是C,此列是某一聚类的大小(即此聚类包含序列数量)

4.(只有类型为H,S和C都是*)

  某一聚类的非代表性序列与代表性序列的相似度,

5.(只有类型为H,S和C都是*),匹配定位 +/-

6.Not used,(H为0,S和C都是*)

7.Not used,(H为0,S和C都是*)

8.(只有类型为H,S和C都是*)

  CIGAR format(Compact Idiosyncratic Gapped Align-ment Report)

  M (match/mismatch), D (deletion) and I (insertion)

9.

如果第1列类型是H,此列是query的序列ID

如果第1列类型是S or C,此列是Centroid的序列ID

10.

如果第1列类型是H,此列是Centroid的序列ID

如果第1列类型是S or C,此列都是*


结论:

先看第2列聚类号,再看第1列类型(如果是S则为此聚类的代表性序列,如果是H则为此聚类的非代表性序列)



参考

vsearch官网使用手册

https://github.com/torognes/vsearch/releases/download/v2.21.1/vsearch_manual.pdf




https://m.sciencenet.cn/blog-994715-1341154.html

上一篇:python中的浮点数range方法
下一篇:minimap2比对结果解释

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 10:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部