lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2序列处理情况汇总详解

已有 779 次阅读 2022-11-7 15:29 |系统分类:科研笔记


(一)物种组成成分之参考序列提取

命令:qiime feature-classifier extract-reads --help

参数解释:

--p-f-primer

--p-r-primer

上下游引物,提取扩增区域

注意引物方向5' -> 3';下游引物不要使用反向互补引物序列

--p-trim-right

从3’端开始剪切。(Applied before trunc-len and trim-left)

--p-trunc-len

从获得扩增区域最左端,截断固定长度(获得相同长度)。在右修剪后但在左修剪前应用(Applied after trim-right but before trim-left)。

--p-trim-left

从5’端开始剪切(Applied after trim-right and trunc-len)

--p-min-length

最小扩增子长度。较短的扩增子被丢弃。在修剪和截断之后应用(Applied after trimming and truncation),请注意修剪可能会影响序列保留。设置为零以禁用最小长度过滤。

必须满足min_length ≤ trunc_len - (trim_left + trim_right),否则报错

--p-max-length

最大扩增子长度。较长的扩增子被丢弃。在修剪和截断之前应用(Applied before trimming and truncation),因此相应地进行规划。设置为零(默认)以禁用最大长度过滤。

实例:

time qiime feature-classifier extract-reads \

  --i-sequences 85_otus.qza \

  --p-f-primer GTGCCAGCMGCCGCGGTAA \

  --p-r-primer GGACTACHVGGGTWTCTAAT \

  --p-trim-right 50 \

  --p-trunc-len 250 \

  --p-trim-left 20 \

  --p-min-length 100 \

  --p-max-length 400 \

  --o-reads ref-seqs.v4.trim_r50.trunc250.trim_f20.qza

结果可视化

qiime feature-table tabulate-seqs \

--i-data ref-seqs.v4.trim_r50.trunc250.trim_f20.qza \

--o-visualization ref-seqs.v4.trim_r50.trunc250.trim_f20.qzv

image.png

(二)生成特征表和特征序列之Dada2去噪(特征序列处理)

命令:qiime dada2 denoise-single --help

参数解释:

--p-trim-left m

去除每个序列的前m个碱基(如引物、标签序列barcode)。截取左端低质量序列,参考箱线图,左端质量都很高,无低质量区,设置为0。

--p-trunc-len n

序列截取长度n,也是为了去除右端低质量序列,如果看到大于120以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为120。如果设置为0,则不会执行截断或长度过滤。

实例:

time qiime dada2 denoise-single \

 --i-demultiplexed-seqs demux.qza \

 --p-trim-left 0 \

 --p-trunc-len 120 \

 --o-representative-sequences rep-seqs-dada2.qza \

 --o-table table-dada2.qza \

 --o-denoising-stats stats-dada2.qza

特征序列可视化

qiime feature-table tabulate-seqs \

  --i-data rep-seqs.qza \

  --o-visualization rep-seqs.qzv

【备注】

mv rep-seqs-dada2.qza rep-seqs.qza

mv table-dada2.qza table.qza

(三)生成特征表和特征序列之Deblur去噪(特征序列处理)

命令:qiime dada2 denoise-single --help

参数解释:

--p-left-trim-len

(类似--p-trim-left)

从5'端开始顺序修剪。值为0将禁用此功能。

--p-trim-length n

(类似--p-trunc-len)

此方法需要一个用于质量过滤的参数,即截断位置n长度的序列的--p-trim-length n。通常,Deblur开发人员建议将该值设置为质量分数中位数开始下降至低质量区时的长度。在本次数据上,质量图(参考箱线图)表明合理的选择是在115至130序列位置范围内。这是一个主观的评估。你可能不采用该建议的一种原因是存在多个批次测序的元分析。在这种情况的元分析中,比较所有批次的序列长度是否相同,以避免人为引入特定的偏差,全局考虑这些是非常重要的。由于我们已经使用修剪长度为120 bp用于qiime dada2 denoise-single分析,并且由于120 bp是基于质量图的结果,这里我们将使用--p-trim-length 120参数。

实例:

time qiime deblur denoise-16S \

  --i-demultiplexed-seqs demux-filtered.qza \

  --p-trim-length 120 \

  --o-representative-sequences rep-seqs-deblur.qza \

  --o-table table-deblur.qza \

  --p-sample-stats \

  --o-stats deblur-stats.qza

特征序列可视化

qiime feature-table tabulate-seqs \

  --i-data rep-seqs.qza \

  --o-visualization rep-seqs.qzv

【备注】

mv rep-seqs-deblur.qza rep-seqs.qza

mv table-deblur.qza table.qza


【参考】

箱线图

image.png

科学网—QIIME 2教程之生成特征表和特征序列(案例一) - 刘树青的博文 (sciencenet.cn)

科学网—QIIME 2教程之物种组成分析 - 刘树青的博文 (sciencenet.cn)



https://m.sciencenet.cn/blog-994715-1362712.html

上一篇:QIIME 2教程之生成特征表和特征序列(案例二)
下一篇:sam/bam格式解读之Edit Distance编辑距离(NM tag)

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-2-7 16:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部