沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

小议基因组时代的分子序列比对策略

已有 4121 次阅读 2012-5-14 11:24 |个人分类:我的研究|系统分类:科研笔记|关键词:学者| 策略, 分子序列, 比对, 基因组时代

小议基因组时代的分子序列比对策略

 

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

 

一不小心,二代测序技术已经如此的深入人心。测序技术提高的一个直接结果就是genbank中的分子序列资料越来越丰富,也暗示序列长度越来越长。这种现状对我们的传统的序列比对方式提出了挑战。这种挑战的表现是多方面,最重要的是参考序列不但包含有我们需要参考的片段,还包含了大量的冗余信息片段。这些冗余片段一方面增加了比对的计算量(这其中大部分是由于冗余信息之间的比对造成的),另一方面很可能会降低比对的准确性(尤其是在有基因重排的情况下)。

我们传统的比对方法可以概括为导入所有序列到比对软件中然后直接比对。当然这种方式越来越不适应基因组时代。

那么新的策略是什么?

简单的概括就是,首先要将我们序列按章长度进行分组,和目标序列分别比对之后修建掉冗余片段,在合并各种分组数据进行总体比对。

这种方法好处不光节省计算资源,提高比对效率,而且避免冗余信息之间的不必要的比对影响到有效序列的比对。

当然这其中也存在挑战,例如genbank在下载序列是似乎还没有按照序列大小进行排序的选项,现在我们的做法是使用一段R代码从genbank格式中提取大小信息,将序列、及其大小存放在一个excel表中后排序,然后使用记事本保存为fas格式,这样再使用mega5分割数据,分组比对。

 

 

祝你科研愉快!



https://m.sciencenet.cn/blog-508298-570734.html

上一篇:如何一步构建ML树和贝叶斯(bayes)树
下一篇:最近参与的两项工作,欢迎批评指正

3 陈飞 刘鹰翔 wormbreeder

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-5 21:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部