生命的追求分享 http://blog.sciencenet.cn/u/lry198010 追求生命的卓越,以达人生的卓越

博文

re-sequence需要多高的覆盖度

已有 7376 次阅读 2010-5-6 18:55 |个人分类:next-generation-sequence|系统分类:科研笔记|关键词:学者| ngs, question

今天听报告,里面有一个内容就是通过re-sequence的方法来找到相关性状的候选基因。连续到这一段时间以来,发现有很多关于重测序利用的报道,不由的想到了这个问题,那就是: 要达到我们的目的,re-sequence需要达到多大的覆盖度? 初步思考,认为与下面的内容相关: (1)物种基因组结构的复杂程度,比如说像油菜这一的异源多倍体,其由A基因组和C基因组组成的,而A、C基因组的共同祖先最早可以追溯到3~5M年以前,并且这个共同的祖先在~10M年发生了三倍化的过程,所以如果想区分不同同源拷贝来源的基因,可能就需要相对比较高的覆盖度,并且序列的读长也要达到一定的要求。比如说,如果一个read的长度只有35bp,那么对很多油菜基因来说,re-sequence的数据通过mapping的方法就很判定不同同源拷贝之间的序列差异(A,C对应两个同源拷贝基因在外显子上的序列相似性平均在97%左右。paired-end测序也非常有必要。还有pacific公司提出的meta-paired方法。 (2)测序的长度和方法。比如测序读长长的需要的覆盖度就要低一些,在同等覆盖度条件下,paired-end测序所能达到的效果就要好于flagment测序方法。 (3)重测序的目的。如果只是想从re-sequence的数据,构建一个高密度的SNP图谱,那么根据一篇水稻的文章(Genome Res,2009,韩斌等人发表的),是乎只要有0.01~0.1倍的覆盖度就可以了。如果只想找到一定数量的SNP,则与两个待分析样品的基因组差异程度有关。如果想做基因组结构差异分析,则目前来看,就需要不同插入长度的paired-end测序,插入长度与想要发现的插入/缺失、倒位~异位的长度有关。 但是有没有这样的一个公式,根据re-sequence的目的(p)、测序的方法(m)、读长(l)和基因组的结构(s)来估计需要的覆盖度(c)的公式(f)!c=f(p,m,l,s)

https://m.sciencenet.cn/blog-43321-320670.html

上一篇:从1000个RI群体中,根据几个性状的极端值选出一个200-300个株系的RI子群体进行QTL分析,会有什么问题?
下一篇:今天听关于关联分析和在作物育种中应用的一点总结

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 02:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部