lsq546397641的个人博客分享 http://blog.sciencenet.cn/u/lsq546397641

博文

QIIME 2教程之Barcode拆分和去除引物

已有 5359 次阅读 2022-11-20 10:29 |系统分类:科研笔记

在数据量比较小的情况下,dada2deblur分析的输入数据最好提前将barcodes和引物这些不想要的adapters切除,虽然dada2deblur)也能粗略切除barcodes和引物,但是做不到cutadapt插件那样精细。

【备注】

虽然可在dada2(deblur)步骤时设置合适的参数去除引物(论坛里建议在使用dada2处理数据之前先去掉引物)。

  Dada2方法要求的输入测序数据必须是已经拆分样本(类似qiime1裂库)的测序数据,这个测序数据也必须是带质量信息的。



(一)区分样本的带质量信息的单端/双端测序数据

国内目前大多数公司给的测序数据形式都是这个,每个样本两个fastq文件,一个放正向序列,一个放反向序列(单端测序只有正向)。要是每个样本两个fasta文件(序列的质量信息已被删除)呢?不好意思,qiime2处理不了这种数据,当然你也可以写个脚本(如python),把序列的质量信息都填充成高质量值(既然已经经过质控,生成fasta,那么我们就可以假设这些序列的质量值都很高了),伪装成fastq文件,这样也能用下面的步骤导入,不过fasta最好还是用qiime1分析。要是双端测序数据一个样本只有一个文件(正向序列和反向序列没有分开放)呢?那你也可以写个脚本(如python)根据序列头的“1”和“2”来把正向序列和反向序列拆开,再用下面的步骤导入。这里,我们只提供大多数情况(每个样本两个fastq文件)的处理步骤:(1)建立一个manifest文件,这个文件公司不会给你的,你需要自己手动书写。(2)单端/双端测序数据manifest文件,导入数据。

因为已经按样本拆分好数据,所以一般此类型数据中不存在barcodes。导入数据后,直接后续去除引物,序列质控和生成特征序列和特征表。

【备注】

详见:《QIIME 2教程之数据导入》 ()任何其他类型的fastq数据(科学网—QIIME 2教程之数据导入(importing data) - 刘树青的博文 (sciencenet.cn)


(二)不区分样本的带barcodes、带质量信息的单端/双端测序数据

其实目前国内很多公司给的应该是区分样本(不同样本的序列放在不同文件里)的带barcodes和引物的fastq测序数据,这种情况你可以用(一)中的方法导入,再用dada2 --p-trim-left参数大致切一下barcodes和引物(deblur --p-left-trim-len);或者你可以选择稍微精确一点但是费事一点的方法,先把所有样本的序列合并到一个文件(如果双端,正向、反向文件分开合并),再用下面的方法完成数据导入,barcode拆分样本,去除引物。

以下类型(Multiplexed*),主要适用于不区分样本的,所有样本测序数据放在一个文件,没有切除barcodes和引物(如果是双端测序数据,则正向、反向分开,只有正向序列fastq里有barcodes)的数据。

数据导入类型:

MultiplexedSingleEndBarcodeInSequence

单端

MultiplexedPairedEndBarcodeInSequence

双端

  • 单端数据

1. 准备测序数据

没有拆分的单端数据放到一个目录:fastq/,分别命名为:forward.fastq.gz

metadata.tsv

sample-id   Barcode        

Lin027  GATCTGCA        

Lin028  GATCTGCA        

Lin029  GATCTGCA        

Lin032  GATCTGCA        

Lin033  GATCTGCA        

2. 数据导入

qiime tools import \

--type MultiplexedSingleEndBarcodeInSequence \

--input-path fastq/ \

--output-path multiplexed-seqs.qza

--input-path 单端数据的路径

3. cutadapt插件区分样本,并去除barcode序列

qiime cutadapt demux-single \

--i-seqs multiplexed-seqs.qza \

--m-barcodes-file metadata.tsv \

--m-barcodes-column Barcode \

--o-per-sample-sequences demultiplexed-seqs.qza \

--o-untrimmed-sequences untrimmed.qza

--i-seqs指定的是上一步的输出,

--m-barcodes-column指定的是metadata.tsv中,barcodes在所在列的列名。

demultiplexed-seqs.qza这个文件是拆分好的数据,并且已经去掉了barcode序列。

4. 去除引物

qiime cutadapt trim-single \

 --i-demultiplexed-sequences DemuxSeq.qza \

 --p-front CCTACGGGNGGCWGCAG \

 --o-trimmed-sequences trimmed-seqs.qza

--p-front指定引物

  • 双端数据

1. 准备测序数据

没有拆分的双端数据放到一个目录:muxed-pe-barcode-in-seq,分别命名为:forward.fastq.gz   reverse.fastq.gz

sample-metadata.tsv:

sample-id       forward-barcodes        reverse-barcodes

Lin027  GATCTGCA        CTACGATG

Lin028  GATCTGCA        GACATAGC

Lin029  GATCTGCA        GATCTGCA

Lin032  GATCTGCA        GCGTATGA

Lin033  GATCTGCA        GTATGCGA

2. 数据导入

qiime tools import \

--type MultiplexedPairedEndBarcodeInSequence \

--input-path muxed-pe-barcode-in-seq \

--output-path multiplexed-seqs.qza

--input-path 双端数据的路径

3. cutadapt插件区分样本,并去除barcode序列

qiime cutadapt demux-paired \

--i-seqs multiplexed-seqs.qza \

--m-forward-barcodes-file sample-metadata.tsv \

--m-forward-barcodes-column forward-barcodes \

--m-reverse-barcodes-file sample-metadata.tsv \

--m-reverse-barcodes-column reverse-barcodes \

--o-per-sample-sequences per_sample_sequences.qza \

--o-untrimmed-sequences untrimmed_sequences.qza

per_sample_sequences.qza  这个文件是拆分好的数据,并且已经去掉了barcode序列。

4. 去除引物

qiime cutadapt trim-paired \

--i-demultiplexed-sequences demux.qza \

--p-front-f CCTACGGGNGGCWGCAG \

--p-front-r ADAPTER2SEQUENCE \

--o-trimmed-sequences trimmed-seqs.qza

--p-front-f指定正向引物,

--p-front-r指定反向引物,

注意不要用--p-adapter-r或者--p-adapter-f参数,它们匹配的是3’末端的序列。


(三)EMP未区分样本、带质量信息的单端/双端测序数据

EMP类型是未区分样本、带质量信息的测序数据,需要先barcode拆分。拆分之后,直接后续去除引物,序列质控和生成特征序列和特征表。

【备注】

拆分样本之前,原始序列文件中的序列已经不带barcodes,所以拆分样本之后,也不带barcodes

详见:《QIIME 2教程之数据导入》 ()采用地球微生组计划(EMP)标准方法产生的FASTQ格式数据(科学网—QIIME 2教程之数据导入(importing data) - 刘树青的博文 (sciencenet.cn)


【参考】

adapter

接头,为一段已知的短核苷酸序列,用于链接未知的DNA fragment。

adapter不是一段特定的序列,index+引物+P7/P5也就是由DNA fragment增变为最后待测序列,在两端增加的序列,总称为adapter。

index或barcode

几个碱基组成的寡核苷酸链,用于在混合测序时,区分不同样本

insert

DNA fragment,位于两个adapter之间

Index

序列

可根据fastq序列中的信息获取,一般长度为6nt。

@HWI-ST1276:71:C1162ACXX:1:1101:1208:2458 1:N:0:CGATGT

fastq的格式信息不再赘述,第一行最末的 CGATGT 即本次测序所使用的index。

如何利用qiime2对barcode信息拆分数据 - 开发技术 - 亿速云 (yisu.com)

2018-04-17宏基因组实战qiime2-201802(三)去除引物和Barcode - 简书 (jianshu.com)

技术贴 | 16S专题 | 基于QIIME2 dada2插件的16S扩增子测序数据的分析流程详解(中) (360doc.com)

二代测序基础知识 (360doc.com)




https://m.sciencenet.cn/blog-994715-1364532.html

上一篇:Git简明使用教程
下一篇:QIIME 2教程之双端序列合并

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 09:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部