博文

QIIME 2教程之Barcode拆分和去除引物

已有 5408 次阅读 2022-11-20 10:29 |系统分类:科研笔记

在数据量比较小的情况下，dada2（deblur）分析的输入数据最好提前将barcodes和引物这些不想要的adapters切除，虽然dada2（deblur）也能粗略切除barcodes和引物，但是做不到cutadapt插件那样精细。

【备注】

虽然可在dada2(deblur)步骤时设置合适的参数去除引物(论坛里建议在使用dada2处理数据之前先去掉引物）。

Dada2方法要求的输入测序数据必须是已经拆分样本（类似qiime1裂库）的测序数据，这个测序数据也必须是带质量信息的。

（一）区分样本的带质量信息的单端/双端测序数据

国内目前大多数公司给的测序数据形式都是这个，每个样本两个fastq文件，一个放正向序列，一个放反向序列（单端测序只有正向）。要是每个样本两个fasta文件（序列的质量信息已被删除）呢？不好意思，qiime2处理不了这种数据，当然你也可以写个脚本（如python），把序列的质量信息都填充成高质量值（既然已经经过质控，生成fasta，那么我们就可以假设这些序列的质量值都很高了），伪装成fastq文件，这样也能用下面的步骤导入，不过fasta最好还是用qiime1分析。要是双端测序数据一个样本只有一个文件（正向序列和反向序列没有分开放）呢？那你也可以写个脚本（如python）根据序列头的“1”和“2”来把正向序列和反向序列拆开，再用下面的步骤导入。这里，我们只提供大多数情况（每个样本两个fastq文件）的处理步骤：（1）建立一个manifest文件，这个文件公司不会给你的，你需要自己手动书写。（2）单端/双端测序数据和manifest文件，导入数据。

因为已经按样本拆分好数据，所以一般此类型数据中不存在barcodes。导入数据后，直接后续去除引物，序列质控和生成特征序列和特征表。

【备注】

详见：《QIIME 2教程之数据导入》 (三)任何其他类型的fastq数据（科学网—QIIME 2教程之数据导入（importing data） - 刘树青的博文 (sciencenet.cn)）

（二）不区分样本的带barcodes、带质量信息的单端/双端测序数据

其实目前国内很多公司给的应该是区分样本（不同样本的序列放在不同文件里）的带barcodes和引物的fastq测序数据，这种情况你可以用（一）中的方法导入，再用dada2 --p-trim-left参数大致切一下barcodes和引物（deblur --p-left-trim-len）；或者你可以选择稍微精确一点但是费事一点的方法，先把所有样本的序列合并到一个文件（如果双端，正向、反向文件分开合并），再用下面的方法完成数据导入,barcode拆分样本，去除引物。

以下类型（Multiplexed*），主要适用于不区分样本的，所有样本测序数据放在一个文件，没有切除barcodes和引物（如果是双端测序数据，则正向、反向分开，只有正向序列fastq里有barcodes）的数据。

数据导入类型：

MultiplexedSingleEndBarcodeInSequence	单端
MultiplexedPairedEndBarcodeInSequence	双端

单端数据

1. 准备测序数据

没有拆分的单端数据放到一个目录：fastq/，分别命名为：forward.fastq.gz

metadata.tsv：

sample-id Barcode

Lin027 GATCTGCA

Lin028 GATCTGCA

Lin029 GATCTGCA

Lin032 GATCTGCA

Lin033 GATCTGCA

2. 数据导入

qiime tools import \

--type MultiplexedSingleEndBarcodeInSequence \

--input-path fastq/ \

--output-path multiplexed-seqs.qza

--input-path 单端数据的路径

3. cutadapt插件区分样本，并去除barcode序列

qiime cutadapt demux-single \

--i-seqs multiplexed-seqs.qza \

--m-barcodes-file metadata.tsv \

--m-barcodes-column Barcode \

--o-per-sample-sequences demultiplexed-seqs.qza \

--o-untrimmed-sequences untrimmed.qza

--i-seqs指定的是上一步的输出，

--m-barcodes-column指定的是metadata.tsv中，barcodes在所在列的列名。

demultiplexed-seqs.qza这个文件是拆分好的数据，并且已经去掉了barcode序列。

4. 去除引物

qiime cutadapt trim-single \

--i-demultiplexed-sequences DemuxSeq.qza \

--p-front CCTACGGGNGGCWGCAG \

--o-trimmed-sequences trimmed-seqs.qza

--p-front指定引物

双端数据

1. 准备测序数据

没有拆分的双端数据放到一个目录：muxed-pe-barcode-in-seq，分别命名为：forward.fastq.gz reverse.fastq.gz

sample-metadata.tsv：

sample-id forward-barcodes reverse-barcodes

Lin027 GATCTGCA CTACGATG

Lin028 GATCTGCA GACATAGC

Lin029 GATCTGCA GATCTGCA

Lin032 GATCTGCA GCGTATGA

Lin033 GATCTGCA GTATGCGA

2. 数据导入

qiime tools import \

--type MultiplexedPairedEndBarcodeInSequence \

--input-path muxed-pe-barcode-in-seq \

--output-path multiplexed-seqs.qza

--input-path 双端数据的路径

3. cutadapt插件区分样本，并去除barcode序列

qiime cutadapt demux-paired \

--i-seqs multiplexed-seqs.qza \

--m-forward-barcodes-file sample-metadata.tsv \

--m-forward-barcodes-column forward-barcodes \

--m-reverse-barcodes-file sample-metadata.tsv \

--m-reverse-barcodes-column reverse-barcodes \

--o-per-sample-sequences per_sample_sequences.qza \

--o-untrimmed-sequences untrimmed_sequences.qza

per_sample_sequences.qza 这个文件是拆分好的数据，并且已经去掉了barcode序列。

4. 去除引物

qiime cutadapt trim-paired \

--i-demultiplexed-sequences demux.qza \

--p-front-f CCTACGGGNGGCWGCAG \

--p-front-r ADAPTER2SEQUENCE \

--o-trimmed-sequences trimmed-seqs.qza

--p-front-f指定正向引物，

--p-front-r指定反向引物，

【注意】不要用--p-adapter-r或者--p-adapter-f参数，它们匹配的是3’末端的序列。

（三）EMP未区分样本、带质量信息的单端/双端测序数据

EMP类型是未区分样本、带质量信息的测序数据，需要先barcode拆分。拆分之后，直接后续去除引物，序列质控和生成特征序列和特征表。

【备注】

拆分样本之前，原始序列文件中的序列已经不带barcodes，所以拆分样本之后，也不带barcodes。

详见：《QIIME 2教程之数据导入》 (一)采用地球微生组计划(EMP)标准方法产生的FASTQ格式数据（科学网—QIIME 2教程之数据导入（importing data） - 刘树青的博文 (sciencenet.cn)）

【参考】

adapter

接头，为一段已知的短核苷酸序列，用于链接未知的DNA fragment。

adapter不是一段特定的序列，index＋引物＋P7/P5也就是由DNA fragment增变为最后待测序列，在两端增加的序列，总称为adapter。

index或barcode

几个碱基组成的寡核苷酸链，用于在混合测序时，区分不同样本

insert

DNA fragment，位于两个adapter之间

Index

序列

可根据fastq序列中的信息获取，一般长度为6nt。

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT

fastq的格式信息不再赘述，第一行最末的 CGATGT 即本次测序所使用的index。

如何利用qiime2对barcode信息拆分数据 - 开发技术 - 亿速云 (yisu.com)

2018-04-17宏基因组实战qiime2-201802（三）去除引物和Barcode - 简书 (jianshu.com)

技术贴 | 16S专题 | 基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解（中） (360doc.com)

二代测序基础知识 (360doc.com)

转载本文请联系原作者获取授权，同时请注明本文来自刘树青科学网博客。
链接地址：https://m.sciencenet.cn/blog-994715-1364532.html

上一篇：Git简明使用教程
下一篇：QIIME 2教程之双端序列合并

收藏分享

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘树青

扫一扫，分享此博文

lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2教程之Barcode拆分和去除引物

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

刘树青

全部作者的其他最新博文

全部精选博文导读

lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2教程之Barcode拆分和去除引物

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

刘树青

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)