沉闷科学的掘墓人分享 http://blog.sciencenet.cn/u/Bearjazz

博文

系统发育树节点名字批量替换

已有 4832 次阅读 2012-5-10 10:50 |个人分类:我的研究|系统分类:科研笔记|关键词:学者| 系统发育树, 节点名字, 长序列名, 批量替换, 服务(免费)

提供系统发育树节点名字批量替换服务(免费)

 

熊荣川

六盘水师范学院生物信息学实验室

xiongrongchuan@126.com

http://blog.sciencenet.cn/u/Bearjazz

 

通常我们在构建系统发育树时,除了自己通过测序得到的序列外,常常需要在genbank中下载同源序列进行补充、比较分析。但是下载下来的序列名称特别长,无论是查看和后续分析都不是很方便(例如以下的序列名称)。

>gi|380854473|gb|JN227420.1| Rana palustris voucher YPM A9399 12S ribosomal RNA gene, partial sequence; tRNA-Val gene, complete sequence; and 16S ribosomal RNA gene, partial sequence; mitochondrial

GGGAATTACGAGCAATGCTTAAAACCCAAAGGATTTGACGGTGTC……

另外,一些序列格式对序列名称的长度也作了限制要求,如phy格式要求序列名称须少于10个字符。

通常我们实验室会通过一个Excel表格建立一列简短名称和原来的冗长的名称一一对应,迅速的跳过名称的纠结进入后续的分析阶段。

然后问题是,系统发育树建立后,结果理想的话,我们通常要把这些简称替换成全称,如拉丁学名。你可能会说使用一些文件的替换功能能把它们替换过来,然后对于数据量越来越大的生物信息学时代,这未免让人有所不甘心。最近我们实验室写了一段程序代码,可以批量的进行树文件中序列名称的批量替换,由于代码写作不易加上尚未封装,所以不便分享。如果有相关需要的朋友可以把相关树文件及新旧名录发到我们的邮箱,我们提供免费的替换帮助。

提交文件主要有两个,首先是一个树文件,只要能用记事本打开就Ok,如常见的newick格式(.nwk

另一个就是excel表格,表格包含两行数据,第一列为旧名字,第二列为新名字(如下图)。

提供系统发育树节点名字批量替换服务.pdf

祝您科研愉快!



https://m.sciencenet.cn/blog-508298-569211.html

上一篇:偶像杨子恒终于发Nature了
下一篇:解决Everything搜索覆盖问题

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-23 19:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部