fastr 格式 DNA 序列的多序列处理 熊荣川 六盘水师范学院生物信息学实验室 xiongrongchuan@126.com http://blog.sciencenet.cn/u/Bearjazz 为了在 R 语言环境中处理,之前我们定义了一种序列格式 fastr 格式,它是 fasta 的衍生格式(详见相关博文 http://bbs.sciencenet.cn/home.php?mod=spaceuid=508298do=blogid=553655 ) 但是,之前我们处理的 fastr 格式都是单条序列格式,然而我们常常在实际运用中使用多序列的文件,怎样在 R 语言环境中一次性的自动将多序列的 fasta 格式 DNA 序列转化为 fastr 格式一直是这种格式推广的短板。这里我们发布几条 R 代码,解决以上问题。 setwd("D:/ziliao/zhuanye/R bear") 设置工作目录,输入 fasta 文件所在文件夹 data - readLines('data2.fasta') 导入序列,存为矩阵数据 data x=data 传导值给 x name - data 提取各条序列名称,保存在 name 向量中 x ="\n" 使用特定的字符来分割个条序列 y=x for (i in 2:length(x)) { y=paste(y, x , sep = "") } 将序列转化成整体单一字符 y - strsplit(y,'\n') 分割各条序列 y - unlist(y) 转化为向量格式 这个时候各条序列就保存在 y 向量的不同单元格中了