博文

QIIME 2教程之生成特征表和特征序列(案例二)

已有 3562 次阅读 2022-11-6 19:19 |系统分类:科研笔记

案例二（其他fastq数据格式（单端数据））

（一）样本元数据

在开始任何分析之前，熟悉元数据很重要。元数据metadata.tsv。

qiime metadata tabulate

--m-input-file metadata.tsv

--o-visualization metadata.qzv

【备注】＃q2_type指令可以指定分类数据类型

（二）样本元数据

教程将使用样本清单格式(manifest format)导入序列，这是一种在QIIME 2中导入拆分样本数据的通用方法。普通用户常用的下机数据格式为.fastq文件，需要创建一个清单文件，然后使用qiime tools import命令手动输入。清单文件是一个文本文件（.tsv或.txt格式），它将示例标识符映射到fastq.gz或fastq的绝对文件路径，其中包含示例的序列和质量数据。清单文件还指示每个fastq.gz或fastq文件中的读取方向。fastq.gz文件位置的绝对文件路径可以包含环境变量（例如$PWD）。

清单文件manifest.tsv内容（单端数据）：

使用文件清单导入数据：

time qiime tools import\

--type "SampleData[SequencesWithQuality]"\

--input-format SingleEndFastqManifestPhred33V2\

--input-path manifest.tsv\

--output-path demux_seqs.qza

结果可视化：

time qiime demux summarize

--i-data demux_seqs.qza

--o-visualization demux_seqs.qzv

输出结果文件：demux_seqs.qzv

【备注】使用qiime demux summarize命令检查样本的序列和测序深度（它提供每个样本中序列数及序列质量的信息）

结果展示：

【备注】导入数据详见：科学网—QIIME 2教程之数据导入（importing data） - 刘树青的博文 (sciencenet.cn)

（三）序列质量控制与生成特征表和特征序列

QIIME 2插件多种质量控制并生成特征表的方式主要有两种，一种是通过去噪，即生成扩增/绝对序列变体（Absolute Sequence Variants，ASV），ASV是最近发展的新一代方法，在功能上提供更好的分辨率。ASV可以基于400bp或更多序列中单个核苷酸的差异来分离特征，甚至超过99％同一性OTU聚类的分辨率。目前在QIIME 2 中可通过DADA2（q2-dada2）和Deblur（q2-deblur）插件实现。第二种是通过聚类生成操作分类单元（Operational Taxonomic Units，OTU），这种方法自2010年以来便得到了广泛应用。QIIME 2目前可通过q2-vsearch插件实现。两种方法不推荐组合使用。

【补充】OTU(Operational Taxonomic Units)：是通过一定距离计算两两不同序列之间的距离度量和相似性，设置特定的阈值，获得同一阈值下的距离矩阵，进行聚类操作，形成不同的分类单元。

本教程将着重介绍DADA2和Deblur两种方法。

方法一：DADA2

二代测序的错误是随机发生的（即，任意两条序列的测序错误相对是随机发生的，一条序列的任意两个位置的测序错误也是随机发生的，不存在关联性）。DADA2质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列，并同时过滤嵌合序列（即嵌合基因，就是两个基因共用一段DNA序列，这两个基因称为嵌合基因）。在DADA2中，双端合并，去除嵌合体，截去接头序列降噪生成feature table都是一步完成的。

【补充】phiX序列通常存在于标记基因Illumina测序数据中，用于提高扩增子测序质量。最主要的目的：1、调节碱基平衡，改善测序仪的空间校正，便于后期提高base calling的准确性；2、由于Phix序列已知基因组较小，在测序的过程中Illumina的测序仪就开始将测的read与phix基因组进行比较，预估测序指标。

【备注】运行DADA2之前要确保测序数据满足以下规范：

（1）样品已被拆分好，即每个样品一个fq/fastq文件（或者双端成对fq文件）；

（2）已经去除非生物核酸序列，比如：引物（primers），接头（adapters or barcodes），linker等；

（3）如果样品是下机的双端测序，其应具有双端测序的相匹配的两个fq文件。

使用DADA2插件进行质量控制：

time qiime dada2 denoise-single 
--i-demultiplexed-seqs demux_seqs.qza 
--p-trunc-len 150
--o-table dada2_table.qza
--o-representative-sequences dada2_rep_set.qza 
--o-denoising-stats dada2_stats.qza

--p-trim-left：截取左端低质量序列。用于切除低质量序列、barocde或引物。

--p-trunc-len：序列截取长度，也是为了切除有段低质量序列。一般从序列质量开始大幅度下降的位置开始切除。

【命令注释】

（1）在使用qiime dada2 denoise-single/ qiime dada2 denoise-paired时可设置--p-n-threads 参数，用于设置运行时使用的线程数量。线程越多，则运行速度越快。当线程设置为0时则默认使用全部线程；

（2）--p-trim-left截取左端低质量序列，有时用于切除低质量序列、barocde或引物。查看demux_seq.qzv文件中的箱线图，左端质量都很高，无低质量区，设置为0；或可直接忽略此参数设置；

（3）--p-trunc-len序列截取长度，也是为了去除右端低质量序列，我们看到大于150以后，质量下降极大，甚至中位数都下降至20以下，需要全部去除，综合考虑决定设置为150；

（4）当处理双端数据时，需考虑截取后的序列是否可以成功拼接。目前最短的拼接长度为引物长度+12bp。

* 统计结果可视化

qiime metadata tabulate
--m-input-file dada2_stats.qza 
--o-visualization dada2_stats.qzv

内容为每个样本的输入、过滤、去噪和非嵌合体的统计结果。展示了样本的质量控制结果，用于样本异常筛选和特征表抽平标准化。

* 特征表可视化

qiime feature-table summarize
--i-table dada2_table.qza
--o-visualization dada2_table.qzv
--m-sample-metadata-file metadata.tsv

下图展示了样本数、特征数和分布等信息。

下图展示了每个样本中的特征数目

下图特征信息，分别为特征名称、出现频率和共出现在多少个样本中。

* 代表序列可视化

qiime feature-table tabulate-seqs
--i-data dada2_rep_set qza
--o-visualization dada2_rep_set.qzv

下图展示代表序列统计信息。有长度摘要、不同百分比下的长度统计和具体代表序列碱基信息

方法二：Deblur

PCR和测序过程中的噪音限制了区分更相近的物种。一些特殊的生态应用与科学研究需要更精确的物种区分。因此，提出了Deblur去噪的方法。Deblur方法提出了sub-operational-taxonomic-unit (sOTU) 提出更精确的分类亚OTU的概念，此概念与ASV意义相同，只是名字不同。

【备注】deblur目前只能对单端序列进行去噪。如果提供末合并的双端序列为输入，将对反向序列不作任何操作。请注意，deblur接受合并的序列，并将它们视为单端序列，因此如果使用deblur进行去噪，需要先合并读取。

第一步 按测序碱基质量过滤序列

time qiime quality-filter q-score
--i-demux demux_seqs.qza
--o-filtered-sequences demux-filtered.qza

第二步 deblur去噪16S过程，输入文件为质控后的序列，设置截取长度参数，生成结果文件有代表序列、特征表、样本统计

time qiime deblur denoise-16S
--i-demultiplexed-seqs demux-filtered.qza
--p-trim-length 150
--o-representative-sequences rep-seqs-deblur.qza
--o-table deblur-table.qza
--p-sample-stats
--o-stats deblur-stats.qza

可视化输出文件，和dada2结果类似:

碱基质量过滤统计结果
time qiime metadata tabulate
--m-input-file demux-filter-stats.qza
--o-visualization demux-filter-stats.qzv
去噪统计结果
time qiime deblur visualize-stats
--i-deblur-stats deblur-stats.qza
--o-visualization deblur-stats.qzv
特征序列
time qiime feature-table tabulate-seqs
--i-data rep-seqs-deblur qza
--o-visualization rep-seqs-deblur.qzv
特征表
time qiime feature-table summarize
--i-table deblur-table.qza
--o-visualization deblur-table.qzv
--m-sample-metadata-file metadata.tsv

Deblur具有以下特点：

（1）使用误差分布来获得假定的无误差序列；

（2）减少了计算的需求，得到了更高的特异性和敏感性；

（3）只受扩增序列读长和多样性的限制；

（4）可以在单个样本水平上使用。

【补充】dada2和deblur详情见：科学网—QIIME 2教程之生成特征表和特征序列(案例一) - 刘树青的博文 (sciencenet.cn)

【参考】

QIIME2进阶二_元数据及数据导入QIIME2

QIIME2进阶三_用QIIME2实现对数据的质量控制

数据下载：百度网盘请输入提取码 (baidu.com)

密码1234

转载本文请联系原作者获取授权，同时请注明本文来自刘树青科学网博客。
链接地址：https://m.sciencenet.cn/blog-994715-1362602.html

上一篇：QIIME 2教程之生成特征表和特征序列(案例一)
下一篇：QIIME 2序列处理情况汇总详解