lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

qimme2-vsearch聚类序列为OTUs

已有 2821 次阅读 2022-6-17 17:52 |系统分类:科研笔记

目前QIIME2支持3种聚类方式:

  • 无参(De novo), 

  • 有参(closed-reference), 

  • 半有参(open-reference clustering,即先有参比对再将无法比对序列进行无参聚类)。

测试数据下载:

wget -c https://data.qiime2.org/2020.11/tutorials/otu-clustering/seqs.fna

wget -c https://data.qiime2.org/2020.11/tutorials/otu-clustering/85_otus.qza

注:85_otus.qza: 按85%相似度聚类的OTU。

  • 序列去冗余

    Dereplicating a SampleData[Sequences] artifact

  1.数据格式化 

命令

qiime tools import --input-path seqs.fna --output-path seqs.qza --type 'SampleData[Sequences]'

结果

seqs.qza: 导入的序列文件

解释

这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。

   2.使用dereplicate-sequences进行序列去冗余

命令

qiime vsearch dereplicate-sequences --i-sequences seqs.qza --o-dereplicated-table table.qza --o-dereplicated-sequences rep-seqs.qza

结果

rep-seqs.qza: 代表序列

table.qza: 特征表

解释

序列去冗余dereplicate-sequences的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。

FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。

FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。

  • 特征[频率]和特征数据[序列]的聚类

    Clustering of FeatureTable[Frequency] and FeatureData[Sequence]

1.无参/从头聚类De novo clustering

命令

qiime vsearch cluster-features-de-novo --i-table table.qza --i-sequences rep-seqs.qza --p-perc-identity 0.99 --o-clustered-table table-dn-99.qza --o-clustered-sequences rep-seqs-dn-99.qza

结果

table-dn-99.qza: 99%相似度聚类的OTUs表。

rep-seqs-dn-99.qza: 99%相似度聚类的代表序列。

解释

该过程的输出是FeatureTable [Frequency]对象和FeatureData [Sequence]对象。FeatureData [Sequence]对象将包含定义每个OTU聚类的**质心(centroid)**序列,即最高丰度序列。

2.有参聚类Closed-reference clustering

命令

qiime vsearch cluster-features-closed-reference --i-table table.qza --i-sequences rep-seqs.qza --i-reference-sequences 85_otus.qza --p-perc-identity 0.85 --o-clustered-table table-cr-85.qza --o-clustered-sequences rep-seqs-cr-85.qza --o-unmatched-sequences unmatched-cr-85.qza

结果

table-cr-85.qza: 特征表。

rep-seqs-cr-85.qza: 代表序列。

unmatched-cr-85.qza: 无法比对的序列。

解释

cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其按85%相似度匹配序列的集合。作为输入提供的参考序列被用作定义有参OTU中的特征序列。

注:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。

3.半有参/开放参考聚类Open-reference clustering

命令

qiime vsearch cluster-features-open-reference --i-table table.qza --i-sequences rep-seqs.qza --i-reference-sequences 85_otus.qza --p-perc-identity 0.85 --o-clustered-table table-or-85.qza --o-clustered-sequences rep-seqs-or-85.qza --o-new-reference-sequences new-ref-seqs-or-85.qza

结果

new-ref-seqs-or-85.qza: 新参考序列。

rep-seqs-or-85.qza: 代表序列。

table-or-85.qza: 特征表。

解释

cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。

注:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。

  • 数据导出


qiime tools export --input-path seqs.qza --output-path exported-seqs

export 命令可以导出过程⽂件qza和qzv的数据

qiime tools extract --input-path seqs.qza --output-path extracted-seqs 

extract 命令不只可以到导出过程⽂件qza和qzv的数据,还包括⽣成此⽂件的相关软件版本,以及步骤的说明

注:也可以unzip seqs.qza,和extract相同效果


.biom文件,将其转换为 tsv 文件的命令

biom convert -i feature-table.biom -o table.tsv --to-tsv

输出结果为feature-table-bacterica.tsv ,即文本格式的Feature table。Feature table的第一列为OTU名称,第2列以后为每个样本中该OTU的数量。OTU按照其在样本组中的总数量排序。


注:qza/qzv格式可视化,网站:QIIME 2 View


参考

【1】QIIME 2教程. 19使用q2-vsearch聚类ASVs为OTUs(2020.11)_刘永鑫Adam的博客-CSDN博客

【2】QIIME 2 View



https://m.sciencenet.cn/blog-994715-1343417.html

上一篇:bwa软件快速使用
下一篇:QIIME 2教程之数据导入(importing data)

0

发表评论 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 21:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部