tiezhengyuan的个人博客分享 http://blog.sciencenet.cn/u/tiezhengyuan

博文

基因组学研究的数据分析之三:MySQL数据库

已有 4243 次阅读 2012-9-1 00:44 |系统分类:科研笔记|关键词:学者| 数据库, normal, style

“如何建立基因组学研究的数据分析平台?”之  MySQL数据库  

 

数据库启动和关键目录

MySQL数据库在linux下是默认安装的,MySQL 的守护进程是mysqld, 如果已经安装则输入如下命令启动数据库服务:

   [root@localhost ~]# service mysqld start 或者

   [root@localhost ~]# /etc/init.d/mysqld start

一旦启动了mysql服务,可以检查服务器是否在运行:

   [root@localhost ~]# ps -el | grep mysqld  或者

   [root@localhost ~]#service mysqld status

进入数据库:

   [root@localhost ~]# mysql   或者指定登录用户

   [yuan@localhost ~]# mysql --user=root

查看数据库安装路径:

   [root@localhost ~]# whereis mysql

 

  使用数据库存储数据

下面举例如何通过一序列SQL命令组合(不分大小写)完成导入基因组数据和查询基因组信息的任务:

命令

说明

SHOW databases;

显示数据库列表

CREATE database P_stipitis6054;

建立数据库P_stipitis6054

USE P_stipitis6054;

打开数据库P_stipitis6054

SHOW tables;

显示数据库P_stipitis6054中的表

DROP TABLE IF EXISTS mRNA_table;

CREATE TABLE mRNA_table

(

  fref VARCHAR(10),

  fstart INT(10),

  fstop INT(10),

  fstrand INT(2),

  locus_tag VARCHAR(15),

  mRNA_gene VARCHAR(20),

  geneid VARCHAR(10),

  mRNA_GI VARCHAR(20),

  transcript_id VARCHAR(20),

  product VARCHAR(200)

 );

如果表mRNA_table存在则删除,然后建立新表mRNA_table,用于储存P. stipitis基因组注释信息,一条记录包括10个字段,这里一个基因对应一条记录,10个字段对应该基因的10个属性,包括基因在基因组的位置(fstart, fstop)、基因id(geneid)、基因简写(mRNA_gene)或基因表达产物信息(product)等。

LOAD DATA LOCAL INFILE '/home/yuan /P_stipitis6054.txt' INTO TABLE mRNA_table;

向表mRNA_table导入P. stipitis基因组注释信息,数据来自文本文件P_stipitis6054.txt

select * from mRNA_table limit 10;

显示前10行信息但包括所有字段,。

select mRNA_gene, product from mRNA_table order by mRNA_gene;

根据mRNA_gene排序,只显示字段mRNA_geneproduct信息。

select * from mRNA_table where product regexp "protein kinase" ;

显示所有基因表达产物(字段product)具有蛋白激酶活性的信息。

select count(*) from mRNA_table;

统计表中多少条信息(基因)

select count(distinct geneid) from mRNA_table;

统计非冗余基因(GeneID)数量

update mRNA_table set mRNA_gene="GCR2", product="Transcriptional activator of glycolytic enzymes" where locus_tag="PICST_68242";

找到locus_tag编号为PICST_68242的记录(基因),更新字段mRNA_geneproduct的注释信息。



https://m.sciencenet.cn/blog-753445-607970.html

上一篇:基因组学研究的数据分析之二:安装和配置Linux系统
下一篇:基因组学研究的数据分析之四:数据下载和文件备份

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 15:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部