lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

MMseqs2软件cluster(聚类)

已有 2585 次阅读 2023-6-10 09:43 |系统分类:科研笔记


软件安装

conda安装

1.  conda create -n mmseqs2

2.  conda activate mmseqs2

3.

conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/ mmseqs2


聚类分析

1. easy-cluster 核心算法:cascaded clustering algorithm

      mmseqs easy-cluster examples.fasta clusterRes tmp --min-seq-id 0.5 -c 0.8 --cov-mode 1

结果解释:

clusterRes 结果文件的前缀。

tmp生成tmp/文件夹,里面记录每次的分析过程。

--min-seq-id 相似性阈值

-c 覆盖度阈值

--cov-mode coverage模式(详见下图)

  0 :bidirectional

  1 :target coverage

  2 :query coverage

  3 :target-in-query length coverage

image.png

2. easy-linclust适合大数据集

    mmseqs easy-linclust examples.fasta clusterRes tmp


备注:

1. --cluster-mode 聚类模型参数,默认是2(2:Greedy clustering by sequence length (CDHIT))

2. 推荐参数组合 --cluster-mode 2 --cov-mode 1


结果解释

*_all_seqs.fasta(总聚类序列文件,3部分

1.该聚类名称(代表性序列的seqid号);2.该聚类的代表性序列;3.该聚类的非代表性序列。

image.png

*_cluster.tsv (聚类结果清单,和*_all_seqs.fasta一致。分2部分

1. 第一列为cluster-representative聚类的代表性序列seqid);2. 第二列为cluster-member聚类的序列成员seqid号)。

image.png

*_rep_seq.fasta (所有的representative sequences聚类的代表性序列)

image.png

tmp/ 文件夹里面记录每次的分析过程


【参考】

【1】https://github.com/soedinglab/MMseqs2




https://m.sciencenet.cn/blog-994715-1391228.html

上一篇:第二代测序技术原理精讲
下一篇:seqkit软件用法小记

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-25 06:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部