||
获得比对到目标数据库中的序列数目
在进行转录组注释分析时,需要对blast的结果进行简单的分析,从而得到注释到目标数据库中的转录本的数目。由于缺乏基本的计算机编程语言的编写能力,因此打算采用比较笨的办法对结果进行解读。首先将outfmt 6 的输出文件中的第一列提取出来,生成一个新的文件。并对此文件进行重复元素去除,最终计算去除重复元素之后的文件的行数即为我们所要得到的结果。
1. 从文件中提取特定的列, 并将其保存为一个新的文件
$ awk '{print $1}' target.file > column.1
awk是一个对文件进行信息提取处理的一个命令,其基本的操作语法是:
awk '{操作代码}' 目标文件 >输出文件
print $1表示输出第一列,$2表示第二列,依次类推。
2. 对输出文件进行去重复元素处理
$ uniq -u column.1 > column.2
uniq命令主要是报告或删除文件中重复的行, 其基本的操作语法是:
uniq [参数] 目标文件 > 输出文件
其中输出文件为可选参数,如果不指定,则输出在屏幕上
3. 统计文件的行数
$ wc -l column.2 > column.num
至此,便可以得到比对到目标数据库中的转录组的数目。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-28 02:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社