lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2教程之生成特征表和特征序列(案例二)

已有 3562 次阅读 2022-11-6 19:19 |系统分类:科研笔记

案例二(其他fastq数据格式(单端数据))


(一)样本元数据

在开始任何分析之前,熟悉元数据很重要。元数据metadata.tsv

qiime metadata tabulate

--m-input-file metadata.tsv

--o-visualization metadata.qzv

image.png

【备注】#q2_type指令可以指定分类数据类型


(二)样本元数据

教程将使用样本清单格式(manifest format)导入序列,这是一种在QIIME 2中导入拆分样本数据的通用方法。普通用户常用的下机数据格式为.fastq文件,需要创建一个清单文件,然后使用qiime tools import命令手动输入。清单文件是一个文本文件(.tsv或.txt格式),它将示例标识符映射到fastq.gz或fastq的绝对文件路径,其中包含示例的序列和质量数据。清单文件还指示每个fastq.gz或fastq文件中的读取方向。fastq.gz文件位置的绝对文件路径可以包含环境变量(例如$PWD)。

清单文件manifest.tsv内容(单端数据):


使用文件清单导入数据:

time qiime tools import\

 --type "SampleData[SequencesWithQuality]"\

 --input-format SingleEndFastqManifestPhred33V2\

 --input-path manifest.tsv\

 --output-path demux_seqs.qza

结果可视化:

time qiime demux summarize

--i-data demux_seqs.qza

--o-visualization demux_seqs.qzv

输出结果文件:demux_seqs.qzv

【备注】使用qiime demux summarize命令检查样本的序列和测序深度(它提供每个样本中序列数及序列质量的信息)

结果展示:

image.pngimage.png

【备注】导入数据详见:科学网—QIIME 2教程之数据导入(importing data - 刘树青的博文 (sciencenet.cn)

(三)序列质量控制与生成特征表和特征序列

QIIME 2插件多种质量控制并生成特征表的方式主要有两种,一种是通过去噪,即生成扩增/绝对序列变体(Absolute Sequence VariantsASV),ASV是最近发展的新一代方法,在功能上提供更好的分辨率。ASV可以基于400bp或更多序列中单个核苷酸的差异来分离特征,甚至超过99%同一性OTU聚类的分辨率。目前在QIIME 2 中可通过DADA2q2-dada2)和Deblurq2-deblur)插件实现。第二种是通过聚类生成操作分类单元(Operational Taxonomic UnitsOTU),这种方法自2010年以来便得到了广泛应用。QIIME 2目前可通过q2-vsearch插件实现。两种方法不推荐组合使用。

【补充】OTU(Operational Taxonomic Units):是通过一定距离计算两两不同序列之间的距离度量和相似性,设置特定的阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。

本教程将着重介绍DADA2和Deblur两种方法。

方法一:DADA2

二代测序的错误是随机发生的(即,任意两条序列的测序错误相对是随机发生的,一条序列的任意两个位置的测序错误也是随机发生的,不存在关联性)。DADA2质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列,并同时过滤嵌合序列(即嵌合基因,就是两个基因共用一段DNA序列,这两个基因称为嵌合基因)。在DADA2中,双端合并,去除嵌合体,截去接头序列降噪生成feature table都是一步完成的。

【补充】phiX序列通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量。最主要的目的:1、调节碱基平衡,改善测序仪的空间校正,便于后期提高base calling的准确性;2、由于Phix序列已知基因组较小,在测序的过程中Illumina的测序仪就开始将测的readphix基因组进行比较,预估测序指标。

【备注】运行DADA2之前要确保测序数据满足以下规范:

1)样品已被拆分好,即每个样品一个fq/fastq文件(或者双端成对fq文件);

2)已经去除非生物核酸序列,比如:引物(primers),接头(adapters or barcodes),linker等;

3)如果样品是下机的双端测序,其应具有双端测序的相匹配的两个fq文件。

使用DADA2插件进行质量控制:

time qiime dada2 denoise-single 
--i-demultiplexed-seqs demux_seqs.qza
--p-trunc-len 150
--o-table dada2_table.qza
--o-representative-sequences dada2_rep_set.qza
--o-denoising-stats dada2_stats.qza

--p-trim-left:截取左端低质量序列。用于切除低质量序列、barocde或引物。

--p-trunc-len:序列截取长度,也是为了切除有段低质量序列。一般从序列质量开始大幅度下降的位置开始切除。


命令注释

(1)在使用qiime dada2 denoise-single/ qiime dada2 denoise-paired时可设置--p-n-threads 参数,用于设置运行时使用的线程数量。线程越多,则运行速度越快。当线程设置为0时则默认使用全部线程;

(2)--p-trim-left截取左端低质量序列,有时用于切除低质量序列、barocde或引物。查看demux_seq.qzv文件中的箱线图,左端质量都很高,无低质量区,设置为0;或可直接忽略此参数设置;

(3)--p-trunc-len序列截取长度,也是为了去除右端低质量序列,我们看到大于150以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为150;

(4)当处理双端数据时,需考虑截取后的序列是否可以成功拼接。目前最短的拼接长度为引物长度+12bp。

统计结果可视化

qiime metadata tabulate
--m-input-file dada2_stats.qza 
--o-visualization dada2_stats.qzv

内容为每个样本的输入、过滤、去噪和非嵌合体的统计结果。展示了样本的质量控制结果,用于样本异常筛选和特征表抽平标准化。

image.png

* 特征表可视化

qiime feature-table summarize
--i-table dada2_table.qza
--o-visualization dada2_table.qzv
--m-sample-metadata-file metadata.tsv

下图展示了样本数、特征数和分布等信息。

image.png

下图展示了每个样本中的特征数目

image.png

下图特征信息,分别为特征名称、出现频率和共出现在多少个样本中。

image.png

代表序列可视化

qiime feature-table tabulate-seqs
--i-data dada2_rep_set qza
--o-visualization dada2_rep_set.qzv

下图展示代表序列统计信息。有长度摘要、不同百分比下的长度统计和具体代表序列碱基信息

image.png

方法二:Deblur

PCR和测序过程中的噪音限制了区分更相近的物种。一些特殊的生态应用与科学研究需要更精确的物种区分。因此,提出了Deblur去噪的方法。Deblur方法提出了sub-operational-taxonomic-unit (sOTU) 提出更精确的分类亚OTU的概念,此概念与ASV意义相同,只是名字不同。

【备注】deblur目前只能对单端序列进行去噪。如果提供末合并的双端序列为输入,将对反向序列不作任何操作。请注意,deblur接受合并的序列,并将它们视为单端序列,因此如果使用deblur进行去噪,需要先合并读取。

第一步 按测序碱基质量过滤序列

time qiime quality-filter q-score
--i-demux demux_seqs.qza
--o-filtered-sequences demux-filtered.qza

二步 deblur去噪16S过程,输入文件为质控后的序列,设置截取长度参数,生成结果文件有代表序列、特征表、样本统计

time qiime deblur denoise-16S
--i-demultiplexed-seqs demux-filtered.qza
--p-trim-length 150
--o-representative-sequences rep-seqs-deblur.qza
--o-table deblur-table.qza
--p-sample-stats
--o-stats deblur-stats.qza

可视化输出文件,和dada2结果类似:

碱基质量过滤统计结果
time qiime metadata tabulate
--m-input-file demux-filter-stats.qza
--o-visualization demux-filter-stats.qzv
去噪统计结果
time qiime deblur visualize-stats
--i-deblur-stats deblur-stats.qza
--o-visualization deblur-stats.qzv
特征序列
time qiime feature-table tabulate-seqs
--i-data rep-seqs-deblur qza
--o-visualization rep-seqs-deblur.qzv
特征表
time qiime feature-table summarize
--i-table deblur-table.qza
--o-visualization deblur-table.qzv
--m-sample-metadata-file metadata.tsv

Deblur具有以下特点:

1)使用误差分布来获得假定的无误差序列;

2)减少了计算的需求,得到了更高的特异性和敏感性;

3)只受扩增序列读长和多样性的限制;

4)可以在单个样本水平上使用。


【补充】dada2和deblur详情见:科学网—QIIME 2教程之生成特征表和特征序列(案例一) - 刘树青的博文 (sciencenet.cn)

【参考】

QIIME2进阶二_元数据及数据导入QIIME2

QIIME2进阶三_用QIIME2实现对数据的质量控制

数据下载:百度网盘 请输入提取码 (baidu.com)
密码1234




https://m.sciencenet.cn/blog-994715-1362602.html

上一篇:QIIME 2教程之生成特征表和特征序列(案例一)
下一篇:QIIME 2序列处理情况汇总详解

0

该博文允许注册用户评论 请点击登录 评论 (15 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 13:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部