植物分子育种分享 http://blog.sciencenet.cn/u/bioysy 欢迎对分子育种有兴趣的朋友们!

博文

搜索水稻已经克隆基因的方法及代码

已有 7531 次阅读 2013-4-6 21:00 |个人分类:技术和方法|系统分类:科研笔记|关键词:学者| 基因, 水稻

原理:

1 当有基因克隆时一般都会提交序列到核酸数据库(NCBI)。

2 在核酸数据库中关于该基因的记录(Accession No)会有这样一条,如:

REFERENCE   1  (bases 1 to 2720)

 AUTHORS   Xue,W., Xing,Y., Weng,X., Zhao,Y., Tang,W., Wang,L., Zhou,H.,

           Yu,S., Xu,C., Li,X. and Zhang,Q.

 TITLE     Natural variation in Ghd7 is an important regulator of heading date and yield potential in rice

 JOURNAL   Nat. Genet. 40 (6), 761-767 (2008)

  PUBMED   18454147

这条是关于报道基因的文献的信息。根据这个信息可以用文章的标题,搜索这篇文章相应的序列。把这个再扩展下。我可以搜索发表在Nat. Genet. 的文章附加的序列,一般基因克隆的文章会附加序列(但这个不总是这样的)

3 如果是水稻的话,记录中会有这样一条:

ORGANISM  Oryza sativa Indica Group Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP

           Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;

           clade; Ehrhartoideae; Oryzeae; Oryza。所以要限定搜索水稻基因可以加关键字 【ORGANISM】Oryza sativa.根据这几条可以写个perl脚本,来搜索发表在plant cell上的水稻克隆的基因,代码如下:

   use Bio::DB::GenBank;

   use Bio::SeqIO;

         $gb = Bio::DB::GenBank->new();#模块赋值,引用new()方法;

   # get a stream via a query string

   my $query = Bio::DB::Query::GenBank->new

       (-query   =>'plant cell[JOURNAL] AND Oryza sativa[ORGANISM]',

        -db      => 'nucleotide');

   my $seqio = $gb->get_Stream_by_query($query);

  $seqout=Bio::SeqIO->new( -format => 'genbank', -file => '>/home/bioysy/sequences/rice_clonedgene_seq/plantcell_ricegene.gb');#定义输出序列的格式及文件

   while( my $seq=$seqio->next_seq ) {                             ###Bio::Seq的方法

     print "seq length is ", $seq->length,"\t",$seq->display_id,"\n";

     $seqout->write_seq($seq);

                                        }

把上述代码,经过适当的修改,运行后可以直接获得在plant cell上发表的水稻基因克隆文章的序列的genbank格式文件,当然进一步修改可以发现其它期刊类似的文章。水稻基因克隆的文章还会发到哪?比如NATURE(但搜NATURE的时侯还有点问题,原因可能是NATURE上发表的基因组测序的文章,那个序列太多,所以太慢,慢得计算机要罢工),Nature genetics,PNAS,Plant phy,Plant j,Science(Science上会搜出全长cDNA那篇文章)。要运行这段代码需要的条件:安装perl及biopel.如果这两样东西都不知道,但有这种需求可以在NCBI的网站上搜索,搜索核酸数据库,用文章的标题作为搜索的关键字,或者限定期刊名搜索相应的期刊,前者我干过,后者需要自己学。

        我编的几个代码及一个shell脚本附上来。这里面可能还有其它文章可以做,呵呵,学了半天从得有点用,这样才会比较有意思点。这对生物信息专业的研究者而言,可能是小儿科的东西,但对我这样靠自学来玩的,还可以算个小小的鼓励。

        哎,科学网又出状况了,我没法添加附件!赶快保存吧,要不辛辛苦苦敲的东西全部玩完!  




https://m.sciencenet.cn/blog-479743-677596.html

上一篇:热烈祝贺小麦基因组草图的诞生
下一篇:H7N9

1 徐大彬

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 10:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部