||||
提供系统发育树节点名字批量替换服务(免费)
熊荣川
六盘水师范学院生物信息学实验室
http://blog.sciencenet.cn/u/Bearjazz
通常我们在构建系统发育树时,除了自己通过测序得到的序列外,常常需要在genbank中下载同源序列进行补充、比较分析。但是下载下来的序列名称特别长,无论是查看和后续分析都不是很方便(例如以下的序列名称)。
>gi|380854473|gb|JN227420.1| Rana palustris voucher YPM A9399 12S ribosomal RNA gene, partial sequence; tRNA-Val gene, complete sequence; and 16S ribosomal RNA gene, partial sequence; mitochondrial
GGGAATTACGAGCAATGCTTAAAACCCAAAGGATTTGACGGTGTC……
另外,一些序列格式对序列名称的长度也作了限制要求,如phy格式要求序列名称须少于10个字符。
通常我们实验室会通过一个Excel表格建立一列简短名称和原来的冗长的名称一一对应,迅速的跳过名称的纠结进入后续的分析阶段。
然后问题是,系统发育树建立后,结果理想的话,我们通常要把这些简称替换成全称,如拉丁学名。你可能会说使用一些文件的替换功能能把它们替换过来,然后对于数据量越来越大的生物信息学时代,这未免让人有所不甘心。最近我们实验室写了一段程序代码,可以批量的进行树文件中序列名称的批量替换,由于代码写作不易加上尚未封装,所以不便分享。如果有相关需要的朋友可以把相关树文件及新旧名录发到我们的邮箱,我们提供免费的替换帮助。
提交文件主要有两个,首先是一个树文件,只要能用记事本打开就Ok,如常见的newick格式(.nwk)
另一个就是excel表格,表格包含两行数据,第一列为旧名字,第二列为新名字(如下图)。
祝您科研愉快!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-23 19:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社