ginseachen的个人博客分享 http://blog.sciencenet.cn/u/ginseachen

博文

Unix文件处理——获得比对到目标数据库中的序列数目

已有 2553 次阅读 2015-11-2 16:43 |系统分类:科研笔记|关键词:学者

获得比对到目标数据库中的序列数目


在进行转录组注释分析时,需要对blast的结果进行简单的分析,从而得到注释到目标数据库中的转录本的数目。由于缺乏基本的计算机编程语言的编写能力,因此打算采用比较笨的办法对结果进行解读。首先将outfmt 6 的输出文件中的第一列提取出来,生成一个新的文件。并对此文件进行重复元素去除,最终计算去除重复元素之后的文件的行数即为我们所要得到的结果。

1. 从文件中提取特定的列, 并将其保存为一个新的文件

$ awk '{print $1}' target.file > column.1

awk是一个对文件进行信息提取处理的一个命令,其基本的操作语法是:

awk '{操作代码}' 目标文件 >输出文件

print $1表示输出第一列,$2表示第二列,依次类推。

2. 对输出文件进行去重复元素处理

$ uniq -u column.1 > column.2

uniq命令主要是报告或删除文件中重复的行, 其基本的操作语法是:

uniq [参数] 目标文件 > 输出文件

其中输出文件为可选参数,如果不指定,则输出在屏幕上

3. 统计文件的行数

$ wc -l column.2 > column.num

至此,便可以得到比对到目标数据库中的转录组的数目。



https://m.sciencenet.cn/blog-1334016-932851.html

上一篇:使用pheatmap软件绘制基因表达热图
下一篇:Python学习笔记——zip函数的使用

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 02:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部