本文续前文《 我们细胞核中的DNA都有用吗?上:历史回顾 》和 《 我们细胞核中的DNA都有用吗?中:人类基因组测序和ENCODE项目 》。 我们不认同用生化活性作为判断DNA是否有用的依据,那么我们应该支持什么研究呢? 除了转录活性,ENCODE项目组还援引了另外一方面的数据:人类功能SNP(专业术语叫 GWAS SNP )。后者发现了很多影响或者决定人类各种表型特征或疾病的单核苷酸变异。这些变异除了少量发生在编码序列外,多数发生在调控蛋白结合位点等ENCODE项目组发现的调控活性区域。这些序列的变异确实影响了生物体的表型,它们的存在不能说是可有可无的。但我们发现,功能SNP的覆盖度太低。以调控蛋白结合位点为例,平均429000个结合调控蛋白质的碱基序列才有一个已经证明的功能SNP。而一般的转录因子结合位点长度是10个碱基。也就是说,功能SNP可以证明一些生化活性区域是有用的,但功能SNP证明的区域占ENCODE报道的区域的很小比例。大部分有生化活性的区域仍未证实。另外,考虑到衰老的进化理论、基因突变的gain of function等因素,即便是功能SNP也不敢100%说就一定有用。 如果一段序列是有用的,那么它变成别的序列就是有害的,就要被淘汰。这样进化的结果,这段序列很保守。多个物种间比较时,会发现它的物种间差异很小。这是进化生物学家和基因组学家普遍认可的标准(1)。物种间和人类个体间比较研究发现人类基因组中大约9%的序列具有一定程度的保守性,应该是有生物学功能的(2,3)。 但通过序列的保守性判断序列是否有用可能低估有用的序列所占比例。目前的序列保守性研究只能分析核苷酸序列在一级结构上的保守性,有些生物学功能只要存在特定的(蛋白质、RNA或DNA的)二级结构即可,无需一级结构保守。另外基于序列保守性的方法无法观测不依赖于特定序列的生物学功能。比如,一个内含子的存在使基因表达的时间放慢几分钟,这种作用已经发现在一些发育关键基因是调控时间节律(4)。这个例子中,只要内含子存在并且能够剪接就够了,内含子中的碱基怎么变都没关系。 确定一段序列是否有用,最根本的手段是去掉这段序列看看对生物体有没有影响。也就是DNA片段敲除实验。当然由于伦理道德原因,敲除实验在人类不现实。但我们可以通过小鼠、猴子等物种的研究,大致推测人类基因组中有用序列的比例。在我前面博文的讨论中,网友 闫双勇 提出了 类似看法 。但DNA敲除实验说起来容易,做起来难。在酵母上,曾有人想区分哪些基因是必需的、哪些是不必需的。与我们目前讨论的问题有点像。他们把酵母的5000来个基因逐一敲除后构建了5000来个突变株,逐一检测这些突变株的适合度(也就是生长、繁殖等表型特征)是否降低了。结果发现了80%的以上的基因敲除突变株正常生活。大部分基因好象是可有可无的(5)。但后来技术进步了,更大规模的研究可行了。相关研究人员在1144种培养条件下分别检测那5000多种基因敲除菌株,用5百万次检验,发现酵母基因组中的大部分基因都是有用的。过去研究认为没用的基因只是在当时有限的检测条件下细胞生长不需要的基因(6)。后来,又有人做了酵母的内含子敲除实验,得到了类似的趋势。酵母基因敲除的经验告诉我们,要想通过DNA敲除确定猴子或者小鼠基因组中有哪些序列是有用的,研究项目的规模将非常巨大,应该是一个很大的工程。 在酵母基因敲出初步实验发表之后,很多人强调基因调控网络的冗余现象,为非必需基因的存在找理由。现在人类基因组中是否有垃圾DNA的问题上,也有网友提出冗余的问题。我的答复是,“冗余不就是多余吗?就像一个机关一样,表面上某个工作人员也在干活,上班时间没有睡觉,但缺了他一点事没有,一切照常运转。他是冗余的,也就是可有可无的。我们就可以把这个人员编制称为junk编制,没用的编制。” 注:此博文属于评论性文章《 Can ENCODE tell us how much junk DNA we carry in our genome 》的简化版,该文发表在著名的“垃圾期刊”BBRC上。 1、Ponting C.P. and R.C. Hardison (2011)What fraction of the human genome is functional?, Genome Res. 21:1769-1776. 2、Ward L.D. and M. Kellis (2012)Evidence of abundant purifying selection in humans for recently acquired regulatory functions, Science 337:1675-1678. 3、Lindblad-Toh K., et al. (2011) A high-resolution map of human evolutionary constraint using 29 mammals, Nature 478: 476-482. 4、Takashima Y., et al. (2011) Intronic delay is essential for oscillatory expression in the segmentation clock, Proc. Natl. Acad. Sci. USA 108: 3300-3305. 5、Giaever G.(2002)Functional profiling of the Saccharomyces cerevisiae genome, Nature 418:387-391. 6、Hillenmeyer M.E., et al. (2008) The chemical genomic portrait of yeast: Uncovering a phenotype for all genes, Science 320: 362-365.