TripleW的个人博客分享 http://blog.sciencenet.cn/u/TripleW

博文

高通量测序中的一个read具有多个位点map上的现象的一些看法

已有 5154 次阅读 2012-1-8 16:57 |个人分类:ChIP/RNA-seq|系统分类:科研笔记|关键词:学者| 基因组, ChIP-seq, control, 灵敏度

很难避免,这种现象,高通量产生的数据中,有部分在基因组上有多个map质量是一样好的现象,这往往是基因组中重复区域造成的。
而这个往往researchers采取了抛弃处理,但是如果我们仔细想想,这种处理会造成哪些后果,我们是不是应该手下留情,进而进一步的慎重考虑对这部分序列采取什么样的后备方案。
看一下背景,这部分的reads,因所测得基因组不同而不同,对于基因组有大量的重复区域,这部分被抛弃的reads的比重将非常高,我没有查过拟南芥的重复区域占有的比重多少(如果您知道,请告诉我),但是我在map某个ChIP-seq数据到拟南芥基因组上的时候,发现有>20%的是在基因组上有多个同等质量map位点的,而这部分序列都被抛弃掉了,在加上那些没有map到基因组上的,这样下来,就有近50%的reads被抛弃。用剩下的50%所做出的研究,虽然也许可能提高了研究的灵敏度,但是同时也忽略了大量的信息,甚至可能引入某些假阳性。
为什么可能会引入假阳性?
对于具有两个样本(一个实验组A,一个control组B)的实验研究,这样就会产生两套数据,各自align到基因组上的时候,就会分别出现各自上面说过的现象。假设,他们各自有20%的比率吧,如果这两者间的这些被抛弃的序列彼此都非常相近,我们可以想见,即使去掉了这部分序列,也无伤大雅,但是如果他们不是呢?
对于A组,这20%被抛弃的reads,假设这其中有10%的reads在B组中,只有一个最好map质量,那么在B组中就不会被抛弃,而是会会被保留下来;反之亦然,B组中的有10%如果再A组中的map只有一个最好的map位点,那么也将会被保留。这样下来,就会产生20%的差异(如果真是这样的情况出现,应该还不止)。
所以在基因组上具有多个位点所对应的reads,是不是应该被抛弃,就值得我们进一步的深思。。。。
 


https://m.sciencenet.cn/blog-607743-527076.html


0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-7 04:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部