博文

基因组解读---蛋白编码基因的注释

已有 18199 次阅读 2017-12-16 14:33 |个人分类:文献推荐|系统分类:科研笔记|关键词:学者| 小麦, 基因组注释

按惯例说点其它的，我们的小萌萌建议我们将更新时间设置在晚上十点，但其实一直没改动，还是零点更新。胖丫说，臣妾做不到啊。现在有不少人关注了很多公众号，在众多的公众号里，想要找到我们还真不容易。这里告诉大家如何置顶公众号。简单来说，就是长按公众号，弹出页面，点击“置顶公众号”，如下图。

只因为在人群中多看你一眼，再也没能忘掉你的容颜, 梦想着偶然有一天你能把我置顶

我们常常讲小麦基因组巨大而复杂，含有85%的重复序列。而目前我们往往采取将基因组打断之后测序，然后再组装成一个完整的基因组。而这个复原过程受很多因素影响，其中重复序列就是非常重要的因素，重复序列越多越难组装。现如今，随着测序技术的发展，一些高度重复的区域可以被很好的区分开，各种辅助组装的技术（Hi-C，光学图谱等）以及NRGene公司的组装技术，让小麦基因组组装至染色体水平不再是梦。尽管已经实现了染色体水平的组装，我们在使用中会发现仍然不够完美，仍需要进一步完善。再者，就发展趋势来讲，仅仅只有一个参考基因组还是不够的，仍然需要更多的基因组，也即现在发展的泛基因组。

那么组装至染色体水平之后，接下来就要对组装的基因组进行解读。所谓解读也就是了解基因组每一段的功能。相对组装来说，解读这一步想要做好也不也不容易。平常我们阅读基因组的文章，往往不会注意到这一块内容。解读也即基因组注释，今天我们只关注编码蛋白基因的注释，在基因组上寻找可能的蛋白编码基因。基因组注释（genome annotation）和基因功能注释(functional annotation)不是一回事，不要搞混。

所以就引入今天要说的文献，发表在预印本网站bioRxiv上的一篇论文，题目是“Combining RNA-seq data and homology-based gene prediction for plants,animals and fungi”，作者是Jens Keilwagen，详细信息如下图。

根据数据来源，蛋白的注释过程可分为三个方面，第一个就是转录组或蛋白组数据，第二就是同源基因的数据，第三个就是从头预测。从可信度方面来看，转录组或蛋白的数据注释出来的基因最可信，其次是根据同源基因注释出的基因，最后才是从头预测的基因。转录组出来的最可信，不表示就是100%正确。现下流行的蛋白基因注释流程基本上就是这三个方面。下面分别说说这三个方面。

首先说说转录组数据，现下绝大部分的转录组数据是通过二代测序平台获得的。二代测序的基本点之一就是打断测序，即将转录本随机打成小片段之后再测序，然后再组装成完整的转录本。不考虑基因组污染、RNA降解等问题，多数问题出在组装过程。现在我们了解到有相当一部分的基因具有多个转录本，也即具有多种可变剪切形式。这种可变剪切容易导致组装过程中出现错误，基因的可变剪切往往受环境或者发育时期调控，其实正确的还原真实存在的转录本并不容易。另外在反转录过程中也会引入错误。所以呢，使用转录组数据辅助基因组注释，要加大转录组的测序深度以及选择不同发育阶段的组织以及不同环境下的多个样本去测序。另外呢，可以选择三代测完整的转录本，这样可以避免组装引起的错误。另外现在也可以选择直接测mRNA序列，这在一定程度上能避免反转录引起的错误。

其次说说关于使用同源基因注释的方面，亲缘关系越近，基因越保守，注释出来的编码基因可信度越高。所以呢，对于那些序列相似性较差的基因所起的作用有限，而且可能还会产生误导。此种方法对物种特异编码基因基本无效。另外一方面也要考虑到物种之间的序列差异性，这种差异性可能导致剪切形式改变，可能导致提前终止等。这种保守性除了序列上的相似性之外，应当还包括结构性的保守性，比如剪切位点的保守性，转录起始位点的保守性，polyA信号的保守性。相比以前的流程，本文最大的改变就是额使用了同源基因之间结构上也是保守性来预测基因。

最后说说从头预测。所谓从头预测就是直接使用基因组序列来预测基因。这里边有啥科学道理呢？最基本的就是，一般我们认为编码基因在序列特征上与背景序列是不同的，所以可以通过这种不同来预测基因。一般这种预测需要一个参数，这个参数通过采集已知基因的序列和结构特征而获得，这样将可以预测基因组上的未知基因。这个准确度很大程度上依赖这个参数和所使用的参数。现在社会上讲人工智能，相信有一天人工智能也会用到基因组注释上来。

接下来我们就盘点下，小麦族里这几篇文章所采用的注释方法和流程。首先是2014年3B那篇文章，具体的注释流程和方法见下面两张图，这里要特别提出这个TriAnnot流程，专门为解读小麦基因组而开发的一个流程，有在线版本，如果有BAC序列，可以使用在线版本预测下。在线的需要进行注册，https://urgi.versailles.inra.fr/triannot。

接下来我们在看看14年那篇整个小麦基因组测序的文章。14年那篇文章受限于contig的长度，有不少基因并不完整。我想了想还是别提了，我们可以说说最近的野生二粒小麦以及节节麦的基因组注释，再者中国春基因组也快出来了，到时我们在详细聊一聊。首先看一看野生二粒小麦的注释流程，如下图所示。

节节麦的注释方法和流程，如下图。

可以看出最近这两篇文章并没有采用从头预测的方法。而TAGC那篇文章，个人认为算是注释的比较好，可能是采用了三代测的转录本的原因。注释流程和方法见下图。

请点击此处输入图片描述

这里只是贴出来，并没有一步一步挑出来说。因为这里边的道道太多，想要获得一个完美的结果，仅仅跑跑流程是不够的，公司里可以这样干，搞研究的呢最好还是搞的细一点。当然了本篇的目的主要还是让大家大体知道由基因组得到编码基因这个过程。

小麦里的流程并不是一个综合的流程，给予转座子足够的重视，要单独列出来。实际上有一个综合的流程，一个流程下来，转座子，编码基因，非编码基因，小RNA等，都可以出来。当然这样一整套下来，还要仔细分析结果，以便进一步优化流程和参数，甚至最后手工校对。这里常用的流程有maker2，braker1，xGDBvm，以及今天提到的GeMoMa。不管哪个流程都不是最完美的，总会有漏网之鱼,比如常常忽略小于100aa的基因。

为了让大家更好的了解基因组注释的流程，不仅仅是编码基因的流程，这里给大家推荐今年的两篇文章，感兴趣的小伙伴可以去看看，看完之后，欢迎留言或在群里讨论。第一篇发表在 the plant journal上，题目是“ Araport11: a complete reannotation of the Arabidopsis thaliana reference genome”，这是一篇专门讲基因组注释的文章，更新了以前版本的拟南芥基因组注释，还专门建了一个在线网站。第二篇文章是一篇综述，发表在Nature Reviews Genetics上，题目是“The state of play in higher eukaryote gene annotation”。这第二篇更值得一看，看完这篇综述，我刚才说的那些都是屁话（为了让你们看，我也是拼了）。实际上我也是写这篇推送的时候才看到的，匆匆忙忙浏览了一遍，到底是人家水平高，或者叫做还是人家搞人类基因组的先进（有钱），我们现在玩的这些，人家几年前就玩过了，不知道还有几年才能赶上人家。这篇文章看完，就像被头脑风暴了，刷新了三观。一个好的基因组注释非常重要，哪怕是人类基因组仍然有太多的盲点。

请点击此处输入图片描述

想要加入教师群的老师或博后，请扫描下方二维码，加我们的小萌萌为好友，审核通过之后，再拉进群。

欢迎关注“小麦研究联盟”，了解小麦新进展

转载本文请联系原作者获取授权，同时请注明本文来自马省伟科学网博客。
链接地址：https://m.sciencenet.cn/blog-1094241-1089992.html

上一篇：VRN1的多重效应---兼论分子育种
下一篇：小麦一周文献推荐（12.17）

mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

基因组解读---蛋白编码基因的注释

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

马省伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

基因组解读---蛋白编码基因的注释

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

马省伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)