科学网

 找回密码
  注册

tag 标签: 基因组注释

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

0_based and 1_based (Sam file, Bam file and Bed file)
hayidahubei 2019-4-11 00:27
0_based numbering: the initial element of a sequence is assigned the index 0; 1_based numbering: the initial element of a sequence is assigned the index 1; BAM/BED data are 0-based and SAM data are 1-based. An example shows below: The screenshot came from a sam file. The sequence (10.4|823|29663|59.364374575|+|61.9047619048|73.3|1) was mapped to mm10, starting from 3259346 in chr10. As sam file is 1_base, which means first locus 3259346 in chr10 is the first nucleotide “A” of the sequence. However, after I converted this to bed file using bamToBed, the iniial locus of the region converts from 3259346 to 3259345. And as Bed file is 0-based, so the second locus in chr10 is the first nucleotide “A”. To double check, I extracted the the sequence of this region (chr10:3259345-3259372) in bed file as shown below. Comparing with the sequence (AAGGGGCTGGACTTGCATGCCATGGAT) in the sam file, we can know that the sequence indeed start from the second locus.
个人分类: 基因组注释信息|2554 次阅读|0 个评论
再说基因组注释
mashengwei 2017-12-26 17:13
12 27 本期作者:Neal 上次我们提到这个文献 “ The state of play in higher eukaryote gene annotation ” ,建议大家去看看了解下,不清楚有多少人会看。基因组注释这一块内容99%的人都不会用到,因为注释出的内容绝大数都是正确的。但是一旦已有的注释信息不能满足需求,那就需要去学习了,看过 Ms2 那篇文章的小伙伴应该还记得, Ms2 就不在已有的基因注释里,公布的IWGSCv1.0版本里也没有这个基因。这种情况下,根据已有的信息并不能正确锁定候选基因,课题岂不是进行不下去了。然而, Ms2 的研究者们使用自己的一套方法终究还是拿到了。有的时候是情势所迫,不得不去了解一个新的领域。也许就是所说的“没有压力就没有动力”。 废话有点多,言归正传。文章的作者是 Jonathan M. Mudge 和 Jennifer Harrow 。在今天之前我也没听过这俩名字,大概查了一些网上的信息,这两位无疑是人类基因组注释方面的专家。 请点击此处输入图片描述 1 基因注释以及面临的挑战 就像我们的甲骨文,如果我们不理解,那么将是非常大的损失。同样,如果只有基因组序列,而我们却不了解都是干啥的,那么这个基因组的价值将大打折扣。早期的时候,我们只关注编码基因的注释,后面慢慢发展,开始重视可变剪切,假基因,非编码RNA,小RNA和一些调控元件等。所以关于基因的定义也就发生了变化, 我们将基因看作是一组具有生物学功能的序列单元 。 相对来说,人类基因组是迄今为止注释信息最完善的基因组,但是这并不表示人类基因组中就没有盲点存在。前几年的时候我们还在说垃圾DNA,可现在已经很少被提及了。基因组的空间信息研究进展也不慢,以及现在火热的表观基因组学,所以基因组注释领域还有很长的路要走。下图展示了当下基因注释的主要框架。 首先基因注释要明确转录本的结构,内含子和外显子边界,经典的GT-AG规则还是适用于绝大多数情况。其次就是搞清楚转录本的生物学功能,比如是不是编码蛋白的基因,实际上,这一方面应该是功能注释(functional annotation)的范畴。转录本和基因是不对等的,一个基因通过可变剪切的形式会产生多个转录本。转录本实际上是我们注释的主要部分。转录本非常复杂,即使不考虑时空特点,除了编码蛋白的基因,还有假基因,长链非编码RNA,小RNA家族等,还有许多新类型的RNA还未被全面研究。总之,这种复杂性对基因注释来说是一个非常巨大的挑战 。 2 注释的主要策略 下图就是一个常见的基因注释流程,以及注释过程中所使用的主要策略。很明显,这些策略都需要毛爷爷的支持,所以这就取决于项目的目的,对于一些参考基因组的注释当然是越详细越好,其他的基因组项目可能就是为了回答某一具体的科学问题,也就没有必要花费大量的人力物力搞的面面俱到。比如一个普通的测序项目可能就是明确进化上的科学问题或者寻找哪些基因受到了正向选择,那么使用蛋白编码基因就够了,而假基因、非编码RNA等则可以忽略。 基因组越是对科学界有价值,就越是需要投入更多的资源。因此,人类,小鼠,拟南芥,秀丽隐杆线虫,黑腹果蝇都经历了多年的大规模诠释项目,涉及多个科学研究机构和测序中心。实际上,人类和小鼠的基因组注释资源目前有些内容是重叠的,比如由RefSeq和GENCODE项目创建的基因集。基因组的质量是影响注释目标的一个关键因素。基于一个低质量的基因组是不可能获得一个高质量的基因注释结果的。 3 注释所使用的证据和方法 不管一个注释项目的科学内涵是什么,影响质量的最关键因素是所使用的方法和证据。在转录水平上,使用一代测序获得的cDNA和EST序列要优于使用短读长的二代测序所获得的序列。绝大部分物种是没有这种数据的,虽然二代测序越来越便宜,但对基因注释来讲并不是最优的选择。 上面说的是转录水平的证据,接下来我们说一说蛋白水平的证据。大规模的蛋白水平的证据实际上是非常缺少的,这远远落后于基因组和转录组的研究。早期的研究基于Swiss--Prot数据库获得了一些CDS序列,通过从头的ORF预测也获得了一些编码序列。ORF预测基于密码子频率以及ORF大小。实际上,寻找真正的CDS可以通过计算ORF中同义与非同义替换的比例来实现的。 下面再说说方法。所有的基因组注释都会依赖流程化的计算过程,而对于参考基因组来说,往往还需要手工来校正。手工校正被看作是一项金标准,这也是一个高标准注释项目的核心程序之一。就像我们前面所说的,流程化的计算过程需要三个方面的资源,即转录组,相近物种的基因注释集,以及从头预测。而从头预测在高等真核生物里已经用的非常少了。一些超大型的基因组项目需要自己注释一份基因集以期能够更好的回答科学问题。出于一些实际的原因,有些研究者只是单纯的利用二代测序拼装完成的转录组序列来注释基因组,因为这种方法错误率太高,所以我们并不认同这种做法。 最后说说基于科学共同体的注释。经过复杂的流程之后,仍然需要手工校正一些错误的位点,也就是所谓的具体问题具体分析。这一部分是最耗时耗力的,但又是一个高质量基因集所必须的。现在也有一些软件,比如WebApollo,能够方便研究者共同在线完成这一工作。 4 注释基因集何时能够完成? 目前还看不到完成的那一天。就是转录组水平的证据都还远远不够。现在火热的单细胞测序结果说明,每个细胞都是不同的,而有些转录本只在非常特定的时空条件下短暂出现,所以路还远着呢。近年来兴起的三代测序也说明之前的注释还是远远不够的。 最近刚刚兴起的RNA捕获测序能够获取新的转录本,但目前也只在人类和小鼠中使用,下图展示了一个具体的例子。 5 谈一谈转录本的开头(TSS)和结尾(TES) 转录本的内含子-外显子边界很重要,但转录本的开头和结尾也很重要,这关乎这转录本的完整性。转录本的5'和3'非翻译区起着重要的调控作用。比如一个基因的两个转录本,编码区完全一样,功能却有差异,5'和3'会调控蛋白的翻译效率。 6 说一说目前的一些难点 区分基因和 假基因 可变剪切转录本是否编码并产生真正的蛋白 一些位于编码区的转录本并不能产生蛋白,那么它的使命是什么? 注释出的蛋白序列仍然需要蛋白水平上的证据 非编码RNA的注释。这一块的工作千万不要被组学水平上的一些鉴定所迷糊眼界。 基因之外。也即目前认为的基因间隔区,这些区域的生物学功能仍是研究的盲点。 基因组的可用性。获得的高质量基因集也需要建立一个方便的访问和使用接口。 最后总结来说,就是革命尚未成功,同志仍需努力。特别是对我们小麦来说,一切才刚刚开始。我们的观念要及时转变过来,记住我们也是有参考基因组的物种了。看到有些小伙伴还在利用EST找基因,做race,实在很痛心呢。如果现在还是2-3个月才开发一个多态标记,那是需要拉出去打板子的。要及时改变观念,了解新数据,这也许要比你起早贪黑的忙几个月要好。 欢迎关注 “ 小麦研究联盟 ”, 了解小麦新进展 投稿、转载、合作以及信息分布等请联系: wheatgenome
个人分类: 文献推荐|14203 次阅读|0 个评论
基因组解读---蛋白编码基因的注释
mashengwei 2017-12-16 14:33
按惯例说点其它的,我们的小萌萌建议我们将更新时间设置在晚上十点,但其实一直没改动, 还是零点更新。胖丫说,臣妾做不到啊 。现在有不少人关注了很多公众号,在众多的公众号里,想要找到我们还真不容易。这里告诉大家如何置顶公众号。简单来说,就是长按公众号,弹出页面,点击“置顶公众号”,如下图。 只因为在人群中多看你一眼,再也没能忘掉你的容颜, 梦想着偶然有一天你能把我置顶 我们常常讲小麦基因组巨大而复杂,含有85%的重复序列。而目前我们往往采取将基因组打断之后测序,然后再组装成一个完整的基因组。而这个复原过程受很多因素影响,其中重复序列就是非常重要的因素,重复序列越多越难组装。现如今,随着测序技术的发展,一些高度重复的区域可以被很好的区分开,各种辅助组装的技术(Hi-C,光学图谱等)以及NRGene公司的组装技术,让小麦基因组组装至染色体水平不再是梦。尽管已经实现了染色体水平的组装,我们在使用中会发现仍然不够完美,仍需要进一步完善。再者,就发展趋势来讲,仅仅只有一个参考基因组还是不够的,仍然需要更多的基因组,也即现在发展的泛基因组。 那么组装至染色体水平之后,接下来就要对组装的基因组进行解读。所谓解读也就是了解基因组每一段的功能。相对组装来说,解读这一步想要做好也不也不容易。平常我们阅读基因组的文章,往往不会注意到这一块内容。解读也即基因组注释,今天我们只关注编码蛋白基因的注释,在基因组上寻找可能的蛋白编码基因。基因组注释(genome annotation)和基因功能注释(functional annotation)不是一回事,不要搞混。 所以就引入今天要说的文献,发表在预印本网站bioRxiv上的一篇论文,题目是“ Combining RNA-seq data and homology-based gene prediction for plants,animals and fungi ”,作者是 Jens Keilwagen ,详细信息如下图。 根据数据来源,蛋白的注释过程可分为三个方面,第一个就是转录组或蛋白组数据,第二就是同源基因的数据,第三个就是从头预测。从可信度方面来看,转录组或蛋白的数据注释出来的基因最可信,其次是根据同源基因注释出的基因,最后才是从头预测的基因。转录组出来的最可信,不表示就是100%正确。现下流行的蛋白基因注释流程基本上就是这三个方面。下面分别说说这三个方面。 首先说说转录组数据,现下绝大部分的转录组数据是通过二代测序平台获得的。二代测序的基本点之一就是打断测序,即将转录本随机打成小片段之后再测序,然后再组装成完整的转录本。不考虑基因组污染、RNA降解等问题,多数问题出在组装过程。现在我们了解到有相当一部分的基因具有多个转录本,也即具有多种可变剪切形式。这种可变剪切容易导致组装过程中出现错误,基因的可变剪切往往受环境或者发育时期调控,其实正确的还原真实存在的转录本并不容易。另外在反转录过程中也会引入错误。所以呢,使用转录组数据辅助基因组注释,要加大转录组的测序深度以及选择不同发育阶段的组织以及不同环境下的多个样本去测序。另外呢,可以选择三代测完整的转录本,这样可以避免组装引起的错误。另外现在也可以选择直接测mRNA序列,这在一定程度上能避免反转录引起的错误。 其次说说关于使用同源基因注释的方面,亲缘关系越近,基因越保守,注释出来的编码基因可信度越高。所以呢,对于那些序列相似性较差的基因所起的作用有限,而且可能还会产生误导。此种方法对物种特异编码基因基本无效。另外一方面也要考虑到物种之间的序列差异性,这种差异性可能导致剪切形式改变,可能导致提前终止等。这种保守性除了序列上的相似性之外,应当还包括结构性的保守性,比如剪切位点的保守性,转录起始位点的保守性,polyA信号的保守性。相比以前的流程,本文最大的改变就是额使用了同源基因之间结构上也是保守性来预测基因。 最后说说从头预测。所谓从头预测就是直接使用基因组序列来预测基因。这里边有啥科学道理呢?最基本的就是,一般我们认为编码基因在序列特征上与背景序列是不同的,所以可以通过这种不同来预测基因。一般这种预测需要一个参数,这个参数通过采集已知基因的序列和结构特征而获得,这样将可以预测基因组上的未知基因。这个准确度很大程度上依赖这个参数和所使用的参数。现在社会上讲人工智能,相信有一天人工智能也会用到基因组注释上来。 接下来我们就盘点下,小麦族里这几篇文章所采用的注释方法和流程。首先是2014年3B那篇文章,具体的注释流程和方法见下面两张图,这里要特别提出这个TriAnnot流程,专门为解读小麦基因组而开发的一个流程,有在线版本,如果有BAC序列,可以使用在线版本预测下。在线的需要进行注册, https://urgi.versailles.inra.fr/triannot 。 接下来我们在看看14年那篇整个小麦基因组测序的文章。14年那篇文章受限于contig的长度,有不少基因并不完整。我想了想还是别提了,我们可以说说最近的野生二粒小麦以及节节麦的基因组注释,再者中国春基因组也快出来了,到时我们在详细聊一聊。首先看一看野生二粒小麦的注释流程,如下图所示。 节节麦的注释方法和流程,如下图。 可以看出最近这两篇文章并没有采用从头预测的方法。而TAGC那篇文章,个人认为算是注释的比较好,可能是采用了三代测的转录本的原因。注释流程和方法见下图。 请点击此处输入图片描述 这里只是贴出来,并没有一步一步挑出来说。因为这里边的道道太多,想要获得一个完美的结果,仅仅跑跑流程是不够的,公司里可以这样干,搞研究的呢最好还是搞的细一点。当然了本篇的目的主要还是让大家大体知道由基因组得到编码基因这个过程。 小麦里的流程并不是一个综合的流程,给予转座子足够的重视,要单独列出来。实际上有一个综合的流程,一个流程下来,转座子,编码基因,非编码基因,小RNA等,都可以出来。当然这样一整套下来,还要仔细分析结果,以便进一步优化流程和参数,甚至最后手工校对。这里常用的流程有maker2,braker1,xGDBvm,以及今天提到的GeMoMa。不管哪个流程都不是最完美的,总会有漏网之鱼,比如常常忽略小于100aa的基因。 为了 让大家更好的了解基因组注释的流程,不仅仅是编码基因的流程,这里给大家推荐今年的两篇文章,感兴趣的小伙伴可以去看看,看完之后,欢迎留言或在群里讨论。第一篇发表在 the plant journal 上,题目是“ Araport11: a complete reannotation of the Arabidopsis thaliana reference genome ”,这是一篇专门讲基因组注释的文章,更新了以前版本的拟南芥基因组注释,还专门建了一个在线网站。第二篇文章是一篇综述,发表在 Nature Reviews Genetics 上,题目是“ The state of play in higher eukaryote gene annotation ”。这第二篇更值得一看,看完这篇综述,我刚才说的那些都是屁话(为了让你们看,我也是拼了)。实际上我也是写这篇推送的时候才看到的,匆匆忙忙浏览了一遍,到底是人家水平高,或者叫做还是人家搞人类基因组的先进(有钱),我们现在玩的这些,人家几年前就玩过了,不知道还有几年才能赶上人家。这篇文章看完,就像被头脑风暴了,刷新了三观 。一个好的基因组注释非常重要,哪怕是人类基因组仍然有太多的盲点。 请点击此处输入图片描述 想要加入教师群的老师或博后,请扫描下方二维码,加我们的小萌萌为好友,审核通过之后,再拉进群。 欢迎关注“ 小麦研究联盟 ” ,了解小麦新进展
个人分类: 文献推荐|17988 次阅读|0 个评论
[转载]关于基因组注释的一个流程
liujd 2012-5-21 11:41
http://blog.sina.com.cn/s/blog_5542c24a0100uadb.html 基因组注释-基因注释流程 (2011-09-16 06:44:11) 转载 ▼ 标签: 基因注释 杂谈 分类: NGS 在基因注释之前,先要mask基因组,这个mask其实还是有技巧的,因为在植物里面很多repeat也存在于基因内部,甚至在exon里面也不少转座子 的残留,简单粗暴的把所有repeat给mask掉了会丢失不少信息,不过我没有深究,我只是简单在abinitio阶段使用mask过的基因组,而在同源搜索和EST比对阶段则不对基因组mask. 1.abinitio工具 -augustus,glimmerHMM,genemark.HMM 我觉得没必要用太多的denovo工具,就挑了几个有禾本科matrix的工具,其实可能一个augustus就够了。 如果一个基因组没有近缘种已测完,并且很少EST序列,那么abinitio应该还是比较有意义的。 2.同源预测工具 2.1 exonerate, 用它,主要是速度快,而且结果还算不错,比其他一些简单的工具要强。我用了所有禾本科的蛋白来做evidence,运气好的时候,我抢到接近500个CPU时,36小时可以跑完。 2.2 genewise, 这个其实很麻烦,本来我不想用的,但是在不用它之前,我注释的结果很不理想,比ensembl的结果差了一截,而ensembl注释的核心工具就是genewise,这工具也是他们相关的小组开发的。 要用它,得自己写不少代码,我懒,所以不想写,不过最后避免不了还是得写。 首先,wise很慢,无敌的慢,你要用wise直接对基因组进行注释绝对是疯了。 要解决这个问题,就得先用蛋白搜基因组,找到可能的目标区域,把这个区域截取出来,再对目标区域进行wise。 2.3 目标区域搜索及HSP linker 搜索目标区域看起来简单,其实还是一件麻烦事,你用tblastn搜,但是blast是个local aligment,一个蛋白会有无数的hsp,如果每个hsp你都去延伸,再截取基因组,一样没效率没意义。 所以,我需要一个hsp linker之类的工具,就是根据hsp之间的关系把那些在基因组上顺序排列并且相隔不太远的hsp link在一起,之后再去做延伸。 hsp link是有一些工具可以用,比如你可以用blat,blat的结果可以用它的一个小工具link起来,也可以用bioperl的模块来寻找hsp clusters,或者wublast,使用一个参数-link也可以达到目标。 但是,我仔细检查了一下结果,发现这些工具都不行,结果很垃圾,一个1kb的蛋白最后匹配个100kb的基因组区域,甚至1Mb,根本没法用。 也萌生过自己写的想法,但是要达到比较好的效果,我的能力不够,根据我的观察,就算计算机出身的,如果对算法不够精通,开发的工具很多都没什么用-可以得到结果,但是结果很不好。 最后,我找到了一个工具,叫 genblastA, 非常符合我的需求,我觉得是现阶段最好的hsp linker了,当然这个工具主要是针对基因注释的。 这个工具很简单,用它搜完基因组,把结果提取出来,整理成tab,就可以进行基因组目标区域截取了。 目标区域截取我是这样的,根据hsp在protein和基因组上start,end,向前后各自延伸3*(protein start-1),3*(protein length-protein end),在此基础上再延伸1kb,因为我的基因组还是有近缘种做reference的,所以1kb应该够了。 目标区域拿到之后就可以做wise了。 wise提供了gff格式的输出,还不错。 3.EST工具 EST工具无疑问,最好的工具就是PASA,虽然慢,但是质量很高。 PASA的文档很详细,参见http://pasa.sourceforge.net 按部就班就可以了。 4.整合工具 当你用各类工具完成了注释后,一个问题是,每一个基因组区域,你都会获得大量redundant的基因结构注释,到底哪一个注释才是最可靠的?所以,我们需要一个整合工具。有些基因组注释过程比较简单粗暴,就是把所有的gene model都翻译了,然后搜已知蛋白数据库,留下最长的,同源性最好的gene model,或者用更复杂一点的筛选组合,例如: The best predictions for each locus are selected using multiple positive factors: C-score, peptide homology coverage, transcript splicing and coverage scores by EST assembly alignments, and one negative factor: overlap with repeats. 另一条路线就是统计打分,先手工注释一些基因,然后把所有的自动注释结果跟手工注释比较,给各个工具打个分,最后用这个打分矩阵扩展到所有的基因上。常用的有glean,jigsaw。 glean,这个工具应该还是不错的,它不需要training,之前用于果蝇12个物种基因组的注释,但是我不会用,文档就半页。。。 jigsaw需要training,我没时间做手工注释。 我用evidence modeler的原因比较直接,它是pasa的开发者做的另一个工具,文档详细,使用简单,而且它自带很多格式转换代码,最重要的是,这个开发者之前也是 做禾本科的,所以虽然这个工具也需要training,但是它也可以人工打分,虽然人工给的不是最好,但也是次好,至少它是根据禾本科的注释推出来的一个 分数。 http://evidencemodeler.sourceforge.net/ 5.流程 abinitio,exonerate,genblasta,pasa可以同时跑,各不相干, genblastA跑完后再做wise. 所有工具跑出来的结果全部转换成gff3格式 用evidence modeler提取最好的gene model 这个gene model再丢个pasa,进行UTR延伸,可变剪接注释。 全部流程跑完4-10天,得看运气,超算紧张时候,100个CPU我都抢不到,宽松时候500多个CPU都有。 6.并行化 以上的所有工具都是单线程的工具,不过大部分工具的输入都是序列文件,只需要分割文件,每个小文件单独一个进程就可以了。wise麻烦一点,因为有几十万 的wise比对,如果每个都做一个进程提交,效率非常低,CY同学给我提供了一个他写的脚本,我感觉对我用处不大,最后用了个折衷的办法,把每一个 wise的命令行都写到一个文本里,然后分割文本,每个小文本作为一个进程直接提交,就相当于一个进程循环执行500条左右的wise运算了。 lsf这个集群管理系统比较诡异,如果进程采用循环提交,甚至使用job array的方式提交,都会出现进程丢失,我搞不清什么原因。 我现在只发现一个提交模式可以避免进程丢失,就是写一个提交进程的规范脚本,然后提交脚本,例如: #!/bin/bash # enable your environment, which will use .bashrc configuration in your home directory #BSUB -L /bin/bash # the name of your job showing on the queue system #BSUB -J Augustus 这里是你分割的文件的总数 # the queue that you will use, the example here use the queue called "normal" # please use bqueus command to check the available queues #BSUB -q Q_Serial # the system output and error message output, %J will show as your jobID #BSUB -o "./abinitio/aug_tmp/%J.%I.out" 屏幕输出,程序运行信息 #BSUB -e "./abinitio/aug_tmp/%J.%I.err" 屏幕输出,错误信息 #the CPU number that you will collect (Attention: each node has 2 CPU) #BSUB -n 1 #enter your working directory, change to your own dir ./abinitio #Finally, Start the program:命令行 augustus --gff3=on --species=maize --outfile=./abinitio/aug_out/gla.masked.f2.$LSB_JOBINDEX.aug_gff3 ./genomic_chunk/gla.masked.f2.$LSB_JOBINDEX.seq 7.最后筛选 注释出来的gene model还是会有很多repeat,还有很多是假基因,还有一些ORF太短,可能是错误注释,这一步筛选比较简单,先砍掉编码蛋白50AA的gene model,然后所有蛋白或者gene model的序列对repeat数据库blast,把那些repeat序列占据超过20% CDS区域的基因扔掉,再把中间有提前终止密码子的扔掉,基本上就完工了。 我的流程只是针对大规模基因组注释的,特别是刚测出的基因组,要精细注释,这个流程还是很粗糙的,影响最大的步骤可能是最后一步的整合工具,没有有效的training可能结果并不够好。
个人分类: 生物信息|2269 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 03:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部