彭勇的个人博客分享 http://blog.sciencenet.cn/u/bigdataage Only Focus on Complex Systems Science & Data Science in Life Science.

博文

NGS数据的质量评估和reads的处理

已有 8242 次阅读 2014-7-7 14:23 |系统分类:科研笔记|关键词:学者| 数据, 处理, ngs, 质量评估, reads

NGS数据的质量评估和reads的处理        

转自:http://www.hzaumycology.com/chenlianfu_blog/?p=1456

http://blog.csdn.net/shmilyringpull/article/details/9225195

 


1. 基因组测序和转录测序的NGS数据处理策略

从测序公司拿到数据后,首先需要对数据进行预处理,主要分两步走:


1.1 QC(reads的质量控制)

Quality Control, 即过滤低质量reads, 低质量的reads有如下几种:
含有Primer/Adaptor的reads
含有过多non-ATCG碱基N的reads
测序质量较低的碱基数占的比例过高的reads

需要将这些reads完全过滤掉,才能用于下一步的分析。


1.2  对reads进行trim处理

如果进行基因组组装,则不需要进行该步骤。如果是需要进行转录组的分析,则必须要该步骤。

本步骤从3′端来对reads进行trim,来控制reads中低质量碱基的比例。直到trim的read长度低于一定的数时,则完全舍弃该read。


2. NGS数据的QC软件


2.1 NGSQC toolkit

该软件的citation:Patel RK, Jain M (2012). NGS QC Toolkit: A toolkit for quality control of next generation sequencing data. PLoS ONE, 7(2): e30619.

该软件的官网:http://www.nipgr.res.in/ngsqctoolkit.html

该软件解压缩后包括4个文件夹和1个PDF格式的manual文件。manual文件是详细的说明;4个文件夹中都是使用perl编写的用于QC的程序。按其重要程度决定先后,其介绍如下:


2.1.1    QC文件夹中包含了4支PERL程序,用于454 READS或ILLUMINA READS的QC,分别为:

IlluQC.pl 用于Illumina reads的QC。默认情况下去除掉含有primer/adaptor的reads和低质量的reads,并给出统计结果和6种图形结果。默认设置 (‘-s’ 参数) 碱基质量低于20的为低质量碱基;默认设置 ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads。程序运行例子:

$  perl   $NGSQCHome/QC/IlluQC_PRLL.pl -pe r1.fq r2.fq 2 5 -p 8 -l 70 -s 20


IlluQC_PRLL.pl 和上一个程序没有多大区别,只是多了 ‘-c’ 参数来进行并行计算,增加程序速度。

454QC.pl 对454 reads进行QC。
454QC_PRLL.pl 和上一个程序一眼个,只是多了 ‘-c’ 参数来进行并行计算,增加程序速度。
454QC_PE.pl 对paired-end测序的454 reads进行QC。


2.1.2  TRIMINGREADS文件夹包含3支程序,用于READS的TRIMMING,分别为:

AmbiguityFiltering.pl 对含有non-ATCG的reads进行trimming的程序。有4种(4选1)trim方法:允许最大non-ATCG数目;允许最大的non-ATCG比例(例子如下);从5′端trim掉含N的序列;从3′端trim掉含N的序列。加上个通用的参数:低于一定长度的reads被cutoff掉。

$ perl  $NGSQCHome/Trimming/AmbiguityFiltering.pl -i r1.fq -irev r2.fq -p 2 -n 50

TrimmingReads.pl 有3种(3选1)trim方法:对所有read从5′端trim掉制定数目的碱基;对所有reads从3′端trim掉指定数目的碱基;从3′端trim掉质量低于指定值的碱基(例子如下)。加上个通用的参数:低于一定长度的reads被cutoff掉。

$ perl  $NGSQCHome/Trimming/TrimmingReads.pl  -i r1.fq -irev r2.fq -q 13 -n 50

HomopolymerTrimming.pl


2.1.3 STATISTICS文件夹中2支程序,用于进行N50统计等

N50Stat.pl 用于统计fasta文件的N50
AvgQuality.pl 用于统计454文件的reads质量


2.1.4   FORMT-CONVERTER文件夹中程序运用于不同格式文件的转换,其中含有4个PERL程序,分别为:

FastqTo454.pl、FastqToFasta.pl、SangerFastqToIlluFastq.pl、SolexaFastqToIlluFastq.pl。






https://m.sciencenet.cn/blog-830496-809721.html

上一篇:心脏发育和再生的研究进展
下一篇:The Regulatory Genome and Cistrome

1 Vetaren11

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 01:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部