科学网

 找回密码
  注册

tag 标签: 表达数据

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

小麦生信菜鸟(四)—基因表达数据库
mashengwei 2018-2-15 10:05
2 12 本期作者:Rui Wang 春节马上就要到了!希望大家都过一个好年!还继续奋斗在实验室的小伙伴也不要孤单,大部分的异乡游子都是没有春节假期的,你不是一个人在战斗! 今天咱们继续聊聊小麦生信常用数据库和网站- 基因表达数据库,首先还是回到我们的Case Study 上,我们鉴定到一个QTL ,也找到了flanking marker 的具体物理位置,而且发现线性相关还不错,QTL 被定位到了10M 的一个距离。那下一步就是看看这10M 的区间都有哪些基因呢,它们的表达量又怎样呢?这就要用到我们今天介绍的gene 表达数据库了。当然,10M 距离之内基因数目还是很多的,想就此把candidate gene 找到是不大可能的,但是做一下初步的筛选对我们以后的精细定位或者说发一篇不错的QTL mapping 文章还是很有帮助的! 按照惯例,我们先从背景介绍和基本应用开始,已经熟知以下两个数据库的小伙伴可以点个赞直接去看春晚了,我们下次再详细聊怎样玩转这两个表达数据库。 首先,我们从下面这个网页开始,已经开始用RefSeq v1.0 的小伙伴应该看到过这个网站了吧,不过你有没有继续深入的点进去呢?比如我们要谈的Expression! https://wheat-urgi.versailles.inra.fr/Seq-Repository/Expression 从这个网页可以轻易找到小麦基因表达的两个重要数据库,一个是WheatExp,另一个是ExpVIP(Wheat expression browser)。 第一个WheatExp : http://wheat.pw.usda.gov/WheatExp/ Quality and adapter-trimmed RNA seq reads were mapped to the full cDNA set of wheat transcripts from the International Wheat Genome SequencingConsortium which are hosted by the Ensembl database. Diploid datasets were mapped to A-genome (32,091cDNAs), tetraploid datasets were mapped to the A- and B-genomes (68,166 cDNAs)and hexaploid datasets were mapped to the A-, B- and D- genomes (101,245cDNAs). Current expression data is generated from Ensembl release 26. ReferenceFASTA and GTF files, as well as all expression data in tabular format, are available for download from the following FTP site. 这个数据库对应的文献于 2015 年 12 月发表在 BMC Plant Biology 上面。 目前这个数据库包括七套数据,第一个是跟发育期有关的,第二三个是跟小麦籽粒发育有关的,第五个数据是跟抗旱和热击有关的。 具体的应用有两种方法,第一种是用序列进行 BLAST ,第二种是直接输入基因的名字(大家看看这个 example 基因是 based on 哪个版本的 annotation ?)。 我输入了一个根部发育 QTL 所对应区间的 gene ,出来的结果非常直观,下图是不同发育期的表达量,不过基本可以排除这不是我要找的 candidate gene 了(大家可以根据结果分析一下)。 这个是在籽粒不同 layers 的表达量变化 第二个 expVIP : http://www.wheat-expression.com/ 这个数据库跟上一个最大的不同在于数据种类增多了,包含 16 个研究(小麦中的不同发育时间,组织,病原体感染和非生物胁迫)的 418 个 RNA-seq 样品的重新分析。比如最重要的是它有 FHB , Rust ,白粉病,和 Septoriatritici blotch 侵染后不同时期的基因表达量,这对于做抗病的小伙伴还是很有用的!这些数据不仅可以帮我们正向筛选想要的基因,有的时候也可以帮我们反向排除很多基因。 相对应的文章于2016年2月发表在 PlantPhysiology 。 这个数据库应用起来就没有 BLAST 的功能了,只能输入基因的名字,可以输一个,也可以两个,用最下面的框框最多可以输 50 个。基因的名字可以用 TCAG 版本,也可以用 CSS 版本(就是下图所展示的 IWGSC2.26 版本)。 比如有一个QTL是跟穗子发育相关的,把对应的gene输入查询,结果如下,看到这个结果还是可以小兴奋一下的,因为这个gene在spike的表达远比在其它组织中要高,而且在spike中不同时期表达量也不一样,这样就可以根据我具体的trait来细致的分析。 另外,在表达量的上方会有针对 16 个 studies 的选项,大家可以根据自己所做的 trait 来选择,比如抗病的就选第 7 个, Stress-disease ,当然也可以全选。 好了,今天的介绍就到这,其实对于这两个数据库,最主要问题还是基因注释名字版本的问题,有兴趣的小伙伴可以自己先玩一下。然后就是如何能把 candidateregion 内的所有 gene 一次性都调出来,这也是需要一些技巧的,我们下次在介绍。
10109 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-5 04:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部