||||
小议基因组时代的分子序列比对策略
熊荣川
六盘水师范学院生物信息学实验室
http://blog.sciencenet.cn/u/Bearjazz
一不小心,二代测序技术已经如此的深入人心。测序技术提高的一个直接结果就是genbank中的分子序列资料越来越丰富,也暗示序列长度越来越长。这种现状对我们的传统的序列比对方式提出了挑战。这种挑战的表现是多方面,最重要的是参考序列不但包含有我们需要参考的片段,还包含了大量的冗余信息片段。这些冗余片段一方面增加了比对的计算量(这其中大部分是由于冗余信息之间的比对造成的),另一方面很可能会降低比对的准确性(尤其是在有基因重排的情况下)。
我们传统的比对方法可以概括为导入所有序列到比对软件中然后直接比对。当然这种方式越来越不适应基因组时代。
那么新的策略是什么?
简单的概括就是,首先要将我们序列按章长度进行分组,和目标序列分别比对之后修建掉冗余片段,在合并各种分组数据进行总体比对。
这种方法好处不光节省计算资源,提高比对效率,而且避免冗余信息之间的不必要的比对影响到有效序列的比对。
当然这其中也存在挑战,例如genbank在下载序列是似乎还没有按照序列大小进行排序的选项,现在我们的做法是使用一段R代码从genbank格式中提取大小信息,将序列、及其大小存放在一个excel表中后排序,然后使用记事本保存为fas格式,这样再使用mega5分割数据,分组比对。
祝你科研愉快!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-6-5 21:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社