科学网

 找回密码
  注册

tag 标签: 非编码

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

Ensembl/Gencode数据库中基因注释统计
hayidahubei 2018-12-18 09:14
现在基因组非编码区域的注释条数越来越多,那么究竟注释了多少非编码基因,多少假基因呢? 这里仅以Gencode数据库中人类和老鼠的最新注释为例。在老鼠的注释信息中(Gencode M19),注释的基因数目总共为5.44万。其中蛋白编码基因大致是2.2万,lncRNA基因和假基因大致为1.3万。在人类的注释信息中(Gencode V29),注释的基因数目总共为5.87万。蛋白编码基因大致是2万;lncRNA基因和假基因大致分别为1.6万和1.47万。每类具体数目如下: GENCODE M19 GENCODE V29 TYPE COUNT TYPE COUNT Total No of Genes 54446 Total No of Genes 58721 Protein-coding genes 21969 Protein-coding genes 19940 Long non-coding RNA genes 12840 Long non-coding RNA genes 16066 Small non-coding RNA genes 6108 Small non-coding RNA genes 7577 Pseudogenes 13033 Pseudogenes 14729 - processed pseudogenes 9772 - processed pseudogenes 10679 - unprocessed pseudogenes 2873 - unprocessed pseudogenes 3535 - unitary pseudogenes 39 - unitary pseudogenes 219 - polymorphic pseudogenes 79 - polymorphic pseudogenes 41 - pseudogenes 67 - pseudogenes 18 Immunoglobulin/T-cell receptor gene segments Immunoglobulin/T-cell receptor gene segments - protein coding segments 494 - protein coding segments 408 - pseudogenes 203 - pseudogenes 237 Total No of Transcripts 137767 Total No of Transcripts 206694 Protein-coding transcripts 57776 Protein-coding transcripts 83129 Nonsense mediated decay transcripts 6816 Nonsense mediated decay transcripts 15291 Long non-coding RNA loci transcripts 18065 Long non-coding RNA loci transcripts 29566 以前只要是非编码我大致都认为是不能翻译成氨基酸的。但是后来越来越多的文章指出很多的非编码区域是可以翻译出氨基酸的。既然是可以翻译出氨基酸,那么就应该有起始密码子和终止密码子,也有可能有UTR区域了。出于个人好奇,我统计ensembl数据库中人类( Homo_sapiens.GRCh38.94.gtf )和老鼠( Mus_musculus.GRCm38.94.gtf )的每类注释的具体数目,以及这些注释中蛋白编码基因所占的总数目。具体数目如下表所示。 Mus_musculus.GRCm38.94.gtf Homo_sapiens.GRCh38.94.gtf TYPE AllAnnotation OnlyPcg Ratio TYPE AllAnnotation OnlyPcg Ratio CDS 512583 511014 0.996939 CDS 746504 745198 0.998251 5'UTR 92374 92064 0.996644 5'UTR 149930 149646 0.998106 3'UTR 83692 83574 0.99859 3'UTR 148491 148326 0.998889 start_codon 58377 57823 0.99051 start_codon 86454 86115 0.996079 stop_codon 54262 54141 0.99777 stop_codon 78562 78453 0.998613 exon 813724 734421 0.902543 exon 1262162 1119281 0.886797 transcript 137862 99138 0.71911 transcript 206601 151150 0.731603 gene 54532 22046 0.404276 gene 58735 19951 0.339678 #AllAnnotation: gtf文件中的所有注释信息。OnlyPcg:仅仅来源于蛋白编码基因的注释信息。 虽然在ensembl/gencode数据库中注释的蛋白编码基因仅仅只占总基因的34%(人类)和40%(老鼠),但是CDS, 5'UTR, 3'UTR,起始密码子和终止密码子的注释几乎全部来自蛋白编码基因。 为了进一步确定在这些注释文件中非编码区域是否存在CDS, 5'UTR, 3'UTR,起始密码子和终止密码子。我又进行了如下的统计(如下表所示). Homo_sapiens.GRCh38.94.gtf Type All Pcg Pseudo Lnc Snc CDS 746504 745198 533 0 0 5'UTR 149930 149646 76 0 0 3'UTR 148491 148326 128 0 0 start_codon 86454 86115 89 0 0 stop_codon 78562 78453 74 0 0 exon 1262162 1119281 43197 90747 7085 gene 58735 19951 15224 15949 7073 transcript 206601 151150 18404 29237 7085 #Pcg: protein-coding genes; Pseudo: Pseudogenes; Lnc: long non-coding genes; Snc: small non-coding genes Mus_musculus.GRCm38.94.gtf Type All Pcg Pseudo Lnc Snc CDS 512583 511014 404 0 0 5'UTR 92374 92064 122 0 0 3'UTR 83692 83574 89 0 0 start_codon 58377 57823 119 0 0 stop_codon 54262 54141 90 0 0 exon 813724 734421 22780 48732 6094 gene 54532 22046 13037 12673 6090 transcript 137862 99138 13947 17808 6091 现在的Ensembl数据库人类和老鼠的最新注释中,long/small non-coding genes都没有CDS, 5'UTR, 3'UTR,起始密码子和终止密码子。但是假基因都有。
个人分类: 基因组注释信息|9282 次阅读|0 个评论
长链非编码RNA
热度 1 tianyizhang6 2010-8-8 08:32
有些时间没聊科学了,就谈一篇刚在《细胞》杂志发表的论文吧。 http://www.cell.com/abstract/S0092-8674%2810%2900730-0 这篇文章研究长链非编码 RNA ( long/large noncoding RNA )。最被人熟悉的 RNA 是 mRNA ,它负责把 DNA 信息转化为蛋白质,也被称为编码 RNA 。除此以外的,就是非编码 RNA ,例如 rRNA, tRNA, snRNA, microRNA ,它们在蛋白合成、 RNA 剪切、 mRNA 降解等重要生物学过程中起重要作用。相比之下,长链非编码 RNA 的研究就比较少,但最近有升温的迹象。 这篇文章的出发点是研究 P53 对基因间的长链非编码 RNA ( large intergenic noncoding RNA ,简称 lincRNA )的调节。 P53 基因调节细胞的很多生理学过程,包括细胞凋亡。 P53 突变在肿瘤中的出现频率非常高,所以也是被热门研究的蛋白。 P53 是一个转录因子。在这篇文章,作者发现 P53 可以直接提高一个 lincRNA ( lincRNA-P21 )的含量,然后 lincRNA-P21 与蛋白 hnRNP-K 结合,再调节其他基因的表达(如下图)。 这项研究不但增加了对癌基因 P53 的认识,也拓宽了对长链非编码 RNA 的了解。也就是说,长链非编码 RNA 虽然与蛋白质合成无关,但能形成一定的二级结构,并调节蛋白质的活性。这个研究不是孤立的,最近几年,有几篇文章介绍了长链非编码 RNA 的重要功能。感兴趣的博友可以搜索关键词 long/large noncoding RNA ,作进一步了解。 如果说长链非编码 RNA 很重要,那为什么在几十年的现代生物学研究中都没有引起重视呢?我想这跟技术和思路都有关系。 在思路上,大家脑子里都有基因 mRNA 蛋白质 功能这么一个定势,就有意或无意地忽略了非编码 RNA 。 在技术上,长链非编码 RNA 的功能也很不容被发现。对于蛋白质来说,绝大部分具有重要功能的蛋白质的发现,都归功于遗传 -- 突变的研究。一个蛋白突变了以后,细胞或生物体有表型,就说明这个蛋白质重要,研究者就克隆对应的基因,并进行深入研究。蛋白质具有精确的结构,某一段的氨基酸(组成蛋白质的基本单元)缺失,甚至单个氨基酸的替换,都会改变蛋白质的功能。所以通过遗传学方法,诱导编码基因的微小突变,就能产生功能缺失的蛋白质。但非编码 RNA 与蛋白质不一样,构成 RNA 的单元是核苷酸,而在一长串核苷酸当中,与 RNA 功能相关的核苷酸只占一小部分。也就是说,通过遗传学方法诱变 RNA 的某些改变,不足以改变它的主要功能。所以,长链非编码 RNA 很难被传统的遗传学方法发现。即使偶然被发现,也会因为这个区域不编码蛋白质,而被忽略。 长链非编码 RNA 引起注意因归功于基因组和基因芯片的研究。通过基因组测序,发现了一些基因编码 RNA ,但这些 RNA 不能翻译成蛋白质。此外,目前的基因芯片可以高密度检测所有的 RNA ,发现了更多被遗漏的非编码 RNA ,包括长链非编码 RNA 。 如果有其他证据提示,某个长链非编码 RNA 值得研究,那么通过 RNA 干扰的方法,可以特异地除掉它,并分析其功能。 对于非编码 RNA 的研究, microRNA 可以说是目前最大的明星,长链非编码 RNA 可能会成为后起之秀,也有较大的研究空间。
个人分类: 分子遗传|28192 次阅读|14 个评论
从“《自然》研究揭示mRNA非编码功能”想到的
孙学军 2010-7-6 22:09
关于类似内容,更精彩的请看科学网 张天翼的博客 : 长链非编码RNA 最近的《自然》研究 mRNA 非编码功能,着是对过去一直受到人们期待的非基因编码序列,所谓无意义序列或内含子功能的比较理想的解释。能让人接受的理论都是具有 best explanation 特点。这个研究对生物医学的意义将是十分巨大。 前几年人们发现了小 RNA 的调节功能,而且因此获得诺贝尔奖,实际上更具有普遍调节意义的是 mRNA 的功能,似乎又成为一个循环,从 mRNA 的编码功能到小 RNA 的调节作用,到现在发现 mRNA 的调节功能,这是认识或理论上的又一次循环。 这个理论和研究具有非常重要的应用前景,因为这是对我们了解基因调控机制的进一部深入认识。估计将在以下这些方面产生影响。 1、 对非编码序列功能,特别是这种调节功能的大搜索。也许在这个基础上能发现更多其他功能。 2、 通过调节这些非编码序列的表达,而不是基因表达,来达到治疗疾病的目的。相信会出现一大批非编码序列翘除的动物模型。 3、 通过研究这些非编码序列的表达谱,研究这些表达模式与疾病的关系。 4、 其他更多。。。。请自己看 全文下 《自然》:研究揭示 mRNA 非编码功能 有助于开发出新手段迅速识别人类疾病相关基因 由 1962 年诺贝尔生理学或医学奖获得者英国科学家克里克和美国科学家沃森提出的分子生物学中心法则认为,遗传信息是从 DNA (脱氧核糖核酸)传递给 mRNA (信使核糖核酸),再从 mRNA 传递给功能蛋白质,由此来完成遗传信息的转录和翻译过程的。 根据这一中心法则, mRNA 似乎只有唯一的功能,即编码蛋白质。最近,美国柏斯以色列狄肯尼斯医学中心癌症( BIDMC )遗传学研究小组的专家认为, RNA 的功能并没有那么单一。 参与竞争的卧底 研究小组发表在近日《自然》( Nature )杂志上的文章指出,除了编码蛋白质外, RNA 之间相互沟通的能力也赋予了它们一种新的功能:通过竞争来参与调控基因表达,并且这种新功能在数以千计的非编码 RNA 身上也有所体现。这一发现具有十分重要的意义,目前科学家已掌握的功能性遗传信息库很可能因此获得极大的增容。 此前研究认为,小分子 RNA ( microRNA )可以通过与 mRNA 绑定来抑制基因表达,阻止 mRNA 向蛋白质传递遗传信息,因此其与包括癌症在内的许多人类疾病都有关。而这项新研究发现,大自然精心设计了一幕精彩的潜伏活动,成千上万的 mRNA 、非编码 RNA 以及所谓的假基因纷纷装扮成小分子 RNA 的面目,共同从事着卧底工作,从而形成了一类新的遗传因素。这些遗传因素一旦发生变异,就会引发癌症或其他人类疾病。 负责该研究的 BIDMC 癌症研究中心主任潘多尔菲表示,尽管传统上人们认为小分子 RNA 会抑制 mRNA 的功能,但事实可能恰恰相反,换句话说,并不是小分子 RNA 绑定了 mRNA ,而是 RNA 扣押了小分子 RNA ,从而保护了 mRNA 的表达,并使小分子 RNA 对其他靶基因无效。研究人员将这种情况定义为竞争性内源 RNA 。 为进一步检验他们的假设,研究小组将目光转向不编码蛋白的假基因。由于假基因或多或少与祖先基因相同,因此它们也是正常基因的竞争者,同样能够识别并争夺相同的小分子 RNA 。 研究小组分析了编码肿瘤抑制基因 PTEN 的 RNA 以及与该基因密切相关的假基因 PTENP1 之间的相互作用。通过这种新机制,他们证明了 PTENP1 同样也是一种肿瘤抑制因子。之后他们如法炮制,证实了与致癌基因 KRAS 相关的假基因 KRAS1P 也是致癌基因。 潜伏者的密语令人神往 潘多尔菲及哈佛医学院的乔治 赖斯曼 教授说,细胞中的非编码 RNA 分子同样具有这个新功能,这不仅意味着科学家发现了 mRNA 的新表达方式,而且 1.7 万个假基因以及多达 1 万个长片段非编码 RNA 所使用的语言也可能被破译。如此一来,估计将有 3 万个新的遗传因素的功能将被科学家掌握,使得细胞和肿瘤生物学的调控方式提升至一个新的水平,并使功能基因组的规模增加一倍。 潘多尔菲表示,科学家现在已经开始重视 RNA 分子之间的竞争性问题,虽然过去人们还很难梳理出相关信息,但他们现在已经知道如何倾听 RNA 的语言,并通过这种方式来预测哪些 RNA 是竞争性内源 RNA ,进而掌握它们的功能。目前科学家已经掌握了数千个与人类疾病相关的 RNA 分子。这些发现将为生物学奠定新的基础,有助于开发出新手段来迅速识别与人类疾病相关的基因,并掌握其功能和作用,从而提高诊断和治疗水平。 更多阅读 《自然》发表论文摘要(英文)
个人分类: 科研思路分享|5543 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 11:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部