机器学习最终清楚地解释了基因调控 诸平 据美国冷泉港实验室( Cold Spring Harbor Laboratory 简称 CSHL )的 Brian Stallard2019 年 12 月 26 日提供的消息, CSHL 的研究人员,将用于基因调控的数学热力学模型(见图 1 左上方)公式化为人工神经网络( artificial neural network 简称 ANN )(见图 1 左下方)。大型 DNA 数据集通过新的 ANN (见图 1 右图示)输入。连接方式以生物学家易于解释的方式呈现。最终可以使机器学习清楚地解释基因控制。 Fig. 1 A mathematical thermodynamic model for gene regulation (top, left) is formulated as an artificial neural network (ANN) (bottom, left). Large DNA datasets are fed through the new ANN (right). The pattern of connections is presented in a way that is easy for biologists to interpret. Credit: Kinney lab/ CSHL, 2019 在这个 “ 大数据 ” 时代,人工智能( artificial intelligence 简称 AI )已成为科学家的宝贵盟友。例如,机器学习算法正在帮助生物学家理解控制基因功能的令人眼花缭乱的分子信号。但是,随着开发出新算法来分析更多数据,它们也变得更加复杂且难以解释。 CSHL 的定量生物学家 贾斯汀· 金尼( Justin B. Kinney )和阿马尔·塔里恩( Ammar Tareen )制定了设计高级机器学习算法的策略,使生物学家更容易理解。 该算法是一种 ANN 。受神经元在大脑中连接和分支方式的启发, ANN 是高级机器学习的计算基础。尽管具有 ANN 的名称,但它并非专门用于研究大脑。 像 贾斯汀· 金尼和阿马尔·塔里恩这样的生物学家,都使用 ANN 来分析来自称为 DNA 的 “ 大规模平行报告基因分析 ” ( massively parallel reporter assay 简称 MPRA )实验方法的数据。利用这些数据,定量生物学家可以制作出 ANN ,以预测哪些分子在称为基因调控的过程中控制 特定基因 。 细胞在所有时间并非需要所有蛋白质。相反,他们依靠复杂的 分子机制 根据需要打开或关闭产生蛋白质的基因。当这些规定失效时,通常会出现疾病。 贾斯汀 · 金尼说: “ 了解基因调控的机制,对于开发针对疾病的分子疗法与束手无策之间的差异至关重要。 ” 不幸的是,根据 MPRA 数据塑造标准 ANN 的方式与科学家在生命科学中提出问题的方式大不相同。这种错位意味着生物学家发现很难解释 基因调控 是如何发生的。 贾斯汀 · 金尼助理教授在 2019 年 12 月 13 日举行的第一届计算生物学机器学习会议上展示了一种新设计的 ANN 的相对易于理解的结构 ( 见图 2 所示 ) 。 Fig . 2 Assistant Professor Justin Kinney showcases the relatively easy-to-understand structure of a newly-designed artificial neural network. His results were officially presented at the 1st Conference on Machine Learning in Computational Biology on December 13 . Credit: CSHL, 2019 现在,贾斯汀 · 金尼和阿马尔·塔里恩开发出了一种新方法,可以弥合计算工具与生物学家的想法之间的鸿沟。他们创建了自定义的人工神经网络,以数学方式反映了生物学中有关基因和控制它们的分子的常见概念。通过这种方式,这对科学家实际上迫使他们的机器学习算法以 生物学家 可以理解的方式处理数据。 贾斯汀 · 金尼解释说,这些努力强调了如何优化现代工业 AI 技术以用于生命科学。贾斯汀 · 金尼的实验室已经验证了这种用于制作定制 ANN 的新策略,因此正在将其应用于调查各种各样的生物系统,包括与 人类疾病 有关的关键基因回路。 该结果于 2019 年 12 月 13 日在加拿大温哥华举行的第一届计算生物学机器学习会议上正式宣布。也可以通过 CSHL 的 bioRxiv 服务器上 的预印本 来阅读原文,了解更多信息。 Biologists pioneer first method to decode gene expression AmmarTareen, Justin BlockKinney. Biophysical models of cis-regulation as interpretable neural networks , bioRxiv (2019). DOI: 10.1101/835942 . PostedDecember 27, 2019. Abstract The adoption of deep learning techniques in genomics has been hindered by the difficulty of mechanistically interpreting the models that these techniques produce. In recent years, a variety of post-hoc attribution methods have been proposed for addressing this neural network interpretability problem in the context of gene regulation. Here we describe a complementary way of approaching this problem. Our strategy is based on the observation that two large classes of biophysical models of cis-regulatory mechanisms can be expressed as deep neural networks in which nodes and weights have explicit physiochemical interpretations. We also demonstrate how such biophysical networks can be rapidly inferred, using modern deep learning frameworks, from the data produced by certain types of massively parallel reporter assays (MPRAs). These results suggest a scalable strategy for using MPRAs to systematically characterize the biophysical basis of gene regulation in a wide range of biological contexts. They also highlight gene regulation as a promising venue for the development of scientifically interpretable approaches to deep learning.
男女免疫系统基因运作不同 诸平 Howard Chang and his colleagues have developed a technology that enables to sample living cells in real time to better understand how they operate. Steve Fisch 斯坦福大学 的研究 据 MedicalXpress 网站 2015 年 7 月 29 日 转载美国 斯坦福大学医学中心 ( Stanford University Medical Center ) 的消息,该中心的研究人员发现,女性免疫系统基因运作不同于男性。下面图 1 是美国 国家人类基因组研究所( National Human Genome Research Institute )提供的显示真核 DNA 片段中的编码分区 , 可见基因可以分为外显子( Exon )区域和内含子( Intron )区域。 FIG. 1 This image shows the coding region in a segment of eukaryotic DNA. Credit: National Human Genome Research Institute 研究人体庞大系统的新技术,其目的就在于揭示基因与免疫系统更频繁地切换有关联,而且虽然可能基因相同,但是在男女之间基因的运作并不相同。男女 X 染色体上的基因数量是相同的 , 只是剂量不同 , 因为女的有两条 X 染色体。据研究表明 , 女性两条 X 染色体 , 会有一条发生沉默表达 , 也就是说 , 只有一条 X 染色体起作用 , 所以男女最后的表达产物和剂量有差别,但相差不大。 一些基因几乎总是开启的 , 就像微波炉上面的计时钟一样 ; 而另外一些基因则长期处于沉默,闲置多年也难得使用一次 , 家里买的有些东西,就是这样令人遗憾而很少使用的闲置品,塞进衣柜的后面 , 甚至被遗忘了。有少数基因开关打开和关闭,就像你最喜欢的一种手机应用软件一样。有一项 新技术 ( newtechnology ) , 可以使其研究活人体内调节基因开关的分子,因为这些分子对于维系生命至关重要。根据斯坦福大学医学院( Stanford University School of Medicine )的一项研究结果,此项新技术已经揭示了一些有趣的惊喜。 这些发现的其一就是基因开关究竟是开启还是关闭,因人而异,更可能是与 自身免疫性疾病 ( autoimmune diseases )有关。 另一个原因则是 , 男性和女性使用不同的开关来打开许多 免疫系统基因。的确是太快了,简直难以令人置信。但不同的活性可以解释女性罹患自身免疫性疾病如硬皮病( scleroderma )、红斑狼疮( lupus )和类风湿性关节炎( rheumatoid arthritis )的发生率要比男性高得多。这项研究的资深作者、皮肤科教授、医学博士 Howard Y. Chang 认为 ,“ 这成为可能的原因之一就是斯坦福大学发明的新技术 —— 对基因组调控因子( regulatory elements )可达性的测量。 ” 这项被称之为 ATAC-seq 的新技术是由 Howard Y. Chang 博士领导的研究团队开发的 , 该技术可以使研究人员实时对活 细胞 进行采样,了解其在干什么。 Howard Y. Chang 博士说 , “ 在过去 , 人们需要大量的细胞才能完成这种测量。为了得到某些罕见类型的细胞,可能真正需要一磅的肉来进行遴选。所以,对于一个大活人来讲,这是根本不可能的。当然,如果的确需要也不得超过一次。 ” 何为ATAC-seq? 所谓 ATAC-seq 是代表采用高通量测序法对易接近转座酶核染色质的化验( A ssay for T ransposase- A ccessible C hromatin with highthroughput seq uencing )。这是在分子生物学中用于研究染色质 ( 复杂的 DNA 结构 ) 的一种技术 , 此方法于 2013 年首次提出。详见 Jason D Buenrostro,Paul G Giresi, Lisa C Zaba, Howard Y Chang, William J Greenleaf. Transpositionof native chromatin for fast and sensitive epigenomic profiling of openchromatin, DNA-binding proteins and nucleosome position. Nature Methods , 6 October2013, 10 (12): 1213-1218. doi : 10.1038/nmeth.2688 . 2015 年元月, Howard Y. Chang 等人在 Current Protocols in Molecular Biology 杂志发表论文,对于 ATAC-seq 作为一种全基因组核染色质可及性分析方法,也有专门论述,详见 Jason D. Buenrostro, Beijing Wu, Howard Y. Chang, William J. Greenleaf. (January 2015). ATAC-seq: A Method for Assaying Chromatin Accessibility Genome-Wide. Current Protocols in Molecular Biology. doi : 10.1002/0471142727.mb2129s109 . 检查对象的来源 研究人员对实验室日益增长的细胞 , 故他们有足够的细胞来进行相关研究。 Howard Y. Chang 说, “ 现在正在研究的仅仅是细胞副本的副本,根本不会接触到原细胞。几个月来实验室细胞的增长,完全改变了细胞的行为 , 所以研究者不再是关注某个特定人。实验室的细胞行为如何,与特定个体人吃什么无关联系 , 它们是否与已经感染了的细胞一起并肩战斗值得关注。 ” 用实验室培养的、尚未经历过任何变化的细胞来进行研究 , 有可能会使单个基因的调控发生变化。 这项新的研究 ,2015 年 7 月 29 日 已经在《细胞体系》( Cell Systems )杂志发表,详见 Kun Qu, Lisa C. Zaba, Paul G. Giresi, RuiLi, Michelle Longmire, Youn H. Kim, William J. Greenleaf,Howard Y. Chang. Individualityand Variation of Personal Regulomes in Primary Human T Cells . Cell Systems , 2015, Vol. 1, Issue 1, p51–61. Published in issue: July 29, 2015. DOI: http://dx.doi.org/10.1016/j.cels.2015.06.003 . 用来自 12 个健康志愿者的普通 血液样本 ,来测量某些基因是怎样被开启和关闭的 , 以及这种测量因人而异的情况又会怎样呢 ? Howard Y. Chang 领导的研究团队也注视相同的志愿者,在不同的时间发生的改变究竟有多少。研究人员唯一关注的就是被称为 T 细胞 的免疫细胞 ,T 细胞很容易从标准血液测试中分离得到 , 方便志愿者供应,而且是 免疫系统 的一个重要组成部分。 关于T细胞及其应用研究 T 细胞是淋巴细胞的主要组分,它具有多种生物学功能,如直接杀伤靶细胞,辅助或抑制 B 细胞产生抗体,对特异性抗原和 促有丝分裂原 的应答反应以及产生 细胞因子 等,是身体中为抵御疾病感染、肿瘤而形成的英勇斗士。 T 细胞产生的免疫应答是细胞免疫,细胞免疫的效应形式主要有两种:与靶细胞特异性结合,破坏靶细胞膜,直接杀伤靶细胞;另一种是释放淋巴因子,最终使 免疫效应 扩大和增强。 T 细胞,是由 胸腺 内的淋巴干细胞分化而成,是淋巴细胞中数量最多,功能最复杂的一类细胞。按其功能可分为 3 个亚群:辅助性 T 细胞、抑制性 T 细胞和 细胞毒性 T 细胞 。它们的正常功能对人类抵御疾病非常重要。到目前为止,有关 T 细胞的演化以及它与癌症的研究取得了不少进展。特别是 21 世纪初人类开始的 生命方舟计划 对于 T 细胞的演化以及它与癌症的研究更是取得了突破性的进展。造血 干细胞 又称多能干细胞,是存在于造血组织中的一群原始 造血细胞 。其最大特点是能自身复制和分化,通常处于静止期,当机体需要时,分裂增殖,一部分分化为定向干细胞,受到一定激素刺激后,进一步分化为各系统的血细胞系。其中淋巴干细胞进一步分化有两条途径。一些干细胞迁移到胸腺内,在胸腺激素影响下,大量增殖分化成为成熟淋巴细胞的一个亚群,被称之为 T 淋巴细胞。 T 淋巴细胞来源于骨髓的多能干细胞(胚胎期则来源于卵黄囊和肝)。在 人体胚胎 期和初生期,骨髓中的一部分多能干细胞或前 T 细胞迁移到胸腺内,在胸腺激素的诱导下分化成熟,成为具有免疫活性的 T 细胞。成熟的 T 细胞经血流分布至 外周免疫器官 的 胸腺依赖区 定居,并可经淋巴管、外周血和组织液等进行再循环,发挥细胞免疫及免疫调节等功能。 T 细胞的再循环有利于广泛接触进入体内的 抗原物质 ,加强 免疫应答 ,较长期保持 免疫记忆 。 T 细胞的细胞膜上有许多不同的标志,主要是表面抗原和表面受体。这些表面标志都是结合在细胞膜上的巨蛋白分子。 T 细胞的 “T” 字,是采用 “ 胸腺 ( thymus ) ” 的第一个字母命名的。第二个细胞群在类似 法氏囊 的器官或组织内受激素作用,成熟并分化为淋巴细胞的另一个亚群,被称为 B 淋巴细胞 。 T 细胞不产生抗体,而是直接起作用。所以 T 细胞的免疫作用叫作 “ 细胞免疫 ” 。 B 细胞是通过产生抗体起作用。抗体存在于体液里,所以 B 细胞的免疫作用叫作 “ 体液免疫 ” 。大多数 抗原物质 在刺激 B 细胞形成抗体过程中;需 T 细胞的协助。在某些情况下, T 细胞亦有抑制 B 细胞的作用。如果抑制性 T 细胞因受感染、辐射、 胸腺功能 紊乱等因素的影响而功能降低时, B 细胞因失去 T 细胞的控制而功能亢进,就可能产生大量自身抗体,并引起各种自身免疫病。例如 系统性红斑狼疮 ,慢性活动性肝炎、 类风湿性关节炎 等。同样,在某些情况下, B 细胞也可控制或增强 T 细胞的功能。由此可见,身体中各类 免疫反应 ,不论是细胞免疫还是体液免液,共同构成了一个极为精细、复杂而完善的防卫体系。 2013 年 1 月初,日本科学家首次培育出能够杀死癌细胞的 T 细胞。他们表示这一研究突破为直接将 T 细胞注入癌症患者体内,用以对抗癌症铺平了道路。实际上,人体可天然产生 T 细胞,但数量较少。成功培育 T 细胞让将这种细胞大量注入患者体内,以增强免疫系统成为一种可能。 为了培育这种细胞,他们首先对专门杀死一种确定癌细胞的 T 淋巴细胞进行 “ 再编程 ” ,使其变成另一种细胞,被称之为 “ 诱导性多功能干细胞 ” ,诱导性多功能干细胞随后发育成功能齐备的 T 淋巴细胞。诱导性多功能干细胞发育而成的 T 淋巴细胞未来可充当一种潜在的癌症治疗手段。 日本科学家将专门对抗一种皮肤癌的 T 淋巴细胞培育成诱导性多功能干细胞,方式是将这种淋巴细胞暴露在 “ 山中因子 ” 环境下。 山中因子 ( やまなか ‐ いんし, Yamanaka factor ) 是一组化合物,能够让细胞退回到 “ 非专业性 ” 阶段。在实验室,研究人员将诱导性多功能干细胞变成 T 淋巴细胞。与最初的 T 淋巴细胞一样,此时的 T 淋巴细胞也专攻同样的皮肤癌。它们的基因构成与最初的 T 淋巴细胞相同,能够表达癌症特异性受体。研究发现这种新型 T 淋巴细胞非常活跃,可以产生一种抗癌化合物。 川本浩 (Hiroshi Kawamoto) 博士表示: “ 我们成功培育出具有特定抗原的 T 细胞,方式是培育诱导性多功能干细胞,而后让它们变成功能性 T 细胞。下一步工作是研究这些 T 细胞到底是具有选择性地杀死癌细胞还是连同其他细胞一起杀死。如果选择性杀死癌细胞,这些 T 细胞便可直接注入患者体内,用于对抗癌症。在不太遥远的将来,我们便可为癌症患者实施这种疗法。 ” 研究发现刊登在《 干细胞 》 ( Stem Cell )杂志上 ——Raul Vizcardo, Kyoko Masuda, Daisuke Yamada, Tomokatsu Ikawa, Kanako Shimizu, Shin-ichiro Fujii, Haruhiko Koseki, Hiroshi Kawamoto. Regeneration of Human Tumor Antigen-Specific T Cells from iPSCs Derived from Mature CD8 + T Cells. Cell Stem Cell , Volume 12, Issue 1 , 3 January2013, Pages 31–36 . http://dx.doi.org/10.1016/j.stem.2012.12.006 . Howard Y. Chang等人的基因调控研究 Howard Y. Chang 等人 2015 年 7 月 29 日 在《细胞体系》( Cell Systems )杂志发表的这项新研究,其目标之一就是建立一个衡量基准,在健康人群当中这种基因开关活性变化的有多少。这样 , 当其他研究人员对患病的病人采取类似措施时 , 他们会有一个究竟怎样才是正常的参照标准。另一个目标是改进测量标准血液样本基因活性的 新技术 。 Howard Y. Chang 说:“我们对于直接探究活人基因调控非常感兴趣,而且着眼于不同个体之间基因调控的差异。我们质疑 ,‘ 人的差别或者相似究竟有多少 ?’ 当然,这种质疑不同于人人是否具有相同的基因。 Howard Y. Chang 认为 , 即使是同卵双胞胎,其中一个可能患有一种自身免疫性疾病 , 而另一个可能是完美健康的。实际上 , 该研究团队报道超过三分之一的基因活性变异并未与遗传差异相连接 , 表明对环境而言,其作用强大,不可低估。 Howard Y. Chang 说: “ 我想说绝大多数的基因区别很可能有一个清清楚楚的来源。 ” 尽管在尚未得到证实之前这还仅仅是个猜想。 性别因素 纵观 12 名健康志愿者 , 人与人之间基因的开启存在不同模式,有 7% 的人基因被开启。对于每个人而言 , 这些模式持续一段时间后 , 就像一种独特的指纹一样。 Howard Y. Chang 说: “ 但对于基因倾向于开启和关闭的单个最大预测器还是人的性别。就其重要性而言 , 性别远比我们看到的所有其他事情都更为重要 , 甚至比其组合还要重要。 ” 当 Howard Y. Chang 的研究团队 测量其 基因活性 水平最高的前 500 个基因中的 30 个时,研究人员预计将显示性别对基因活性的影响 , 他们发现这 30 个基因中有 20 个基因显示出男女之间,存在显著的基因活性差异。 Howard Y. Chang 在美国 斯坦福大学人体动态调节物组中心( Center for Personal Dynamic Regulomes at Stanford University )进行指导研究,他们的目的就在于绘制 调节物组图( map theregulome ) ,即所有 实时 负责 基因 开启和关闭的整套调节物组( regulome )图。 更多信息请注意浏览原文。
去年我就听说中科院康乐院士研究组在测蝗虫的基因组序列。相关文章发表在 Nature Communication 上面。由于测全基因组序列受到中国不少科学家的诟病,相关报道( http://paper.sciencenet.cn/htmlpaper/20141159465297931669.shtm )一出,自然引起了争议。有人认为直言不讳地说道:“ 中國人還會乾點別的么?就知道測序嗎 ? ”也有人兴奋地说道:“终于有人测蝗虫了。” 康乐院士是我比较敬佩的科学家之一。记得有一次他来学校作报告,我在报告结束后提问环节中提到他新编的一本著作,并询问能否赠送一本,他随即说道:“没问题,等下你发封邮件提醒下我。”第二天我给他发了邮件,并在一个小时内就得到了回复。发送邮件的第二天我就收到了那本书,寄的顺丰快递。 康院士的研究组用现代分子生物学手段,从代谢代谢组学、基因组学等方面部分解释了东亚飞蝗型变(群居型和散居型的相互转变)的机理后,在国际上的声誉不断提高。在某些方面可以说是在技术上占了上风,毕竟很多机理的阐述要依赖于关键技术的进步。特别是要在关键的时候发现关键的问题,并运用关键的技术。“某个基因或者某些基因控制了飞蝗的型变”这种论调已经一去不复返。飞蝗在从一个型变成另一个型的变化是一种整体性的变化,这种变化体现在神经系统变化、代谢系统变化、免疫系统变化、生殖系统变化。而这种系统性的变化而恰恰是建立在同一套基因组的基础上的。研究进展到这一步,不得不测基因组了。 那么回到本文题目:全基因组序列究竟能告诉我们多少关于生物的信息?我们先看看二十多年前的生物学家是怎么说。那时候人类基因组计划正在如火如荼的进行当中。一些低等动物的基因组图谱已经被绘出。美国怀特赫德生物医学研究所的分子生物学家 Harvey F. Lodish 在 1995 年一期 Science 的“ viewpoint: the future ”专栏采访中无比憧憬地说道: “运用到体外受精中的相关技术已经能够将正在发育胚胎中的某个细胞移出来,并可以分析该细胞中任何特定 DNA 的区域,这种胚胎植入之前必要的遗传筛查可能很快就会常态化。” 接着他还预言: “通过测定母亲 DNA 的某些重要的区域,还可能推测出受精卵发育的一些重要特征。” 接着他进一步假设说道: “仅仅通过测定基因组,就可能准确预测蛋白质结构和功能,以至于可以自动推测出某些重要蛋白的相关特征以及调节(比如说在特定的发育时期特定的组织或细胞中会合成多少蛋白)。” “所有的相关信息都可以转移到一台超级电脑上,再加上环境信息——如营养、环境毒素、阳光等。电脑输出的将是一部生动的电影:一个受精卵发育成胚胎,胚胎发育成胎儿直至长大成人,其中你可以看到 ta 的体形和身高,看到 ta 的皮肤、头发、眼睛的颜色。通过测定全基因组你不仅可以看到这些,甚至还可以看到 ta 将来的语言和运动能力,甚至可以听到 ta 说话唱歌——尽管 ta 还是个胚胎。” Lodish 这段好莱坞式的场景描述现在已成为众多遗传学家和进化生物学家(特别是那些反对“基因中心论”的进化生物学学家)笑柄。 很多科学家任然热衷于单纯的基因组测序。而一些测序公司也顺应时代,更新他们所谓的新理念,推出了各种各样的新服务,如“重测序”、“深度测序”等等。从过去的实践来看某些疾病确实和 DNA 上的碱基突变有关系,如经典的镰刀型贫血病、乳腺癌的相关致病基因。而哈佛大学的华人科学家谢晓亮也积极发展更精确的单细胞测序技术来确定癌细胞的 SNP (单核苷酸多态性)的变化。然而这些碱基的变化对并不能告诉生物体变异的所有信息。 二十一世纪的生物科学研究奉行的一个原则就是基因说了算,简言之就是“基因中心论”。自从孟德尔在做完豌豆杂交实验后从豌豆的颜色种皮形状推测出有某种内在的控制因子,科学家便开始认同这种观念;直至 DNA 结构的确定以及中心法则的确立,人们对此更是深信不疑。很多科学家认为生物的表型是由相应的基因控制的,存在某种表型就一有相应的基因,相同表形由相同的基因表达而成,若表型发生变异,则是基因突变引起的。直到现在表观遗传学建立多年,很多人应该仍然深受这种观念的影响。 我国的分子生物学教材将基因粗略地定义为:携带遗传信息的 DNA 片段。如果仅仅是这段 DNA 片段的话,恐怕连自我复制这种功能都不能实现。一个能够表达出某种生物性状的基因除了那条核心的 DNA 片段之外,还应该包括为其表达服务的附属结构。按照这一推理下去任何基因表达的附属结构都是都其他基因表达的。这种简单的推理便足以将整个生物细胞以及生物体连成一个网络。这个网络便是由整个基因组衍射出来的。网络中任何一个节点出现波动,都会影响整个网络的平衡。生物体任何一个性状的后面都存在着由一部分主要基因和一部分次要基因构成的网络,主要基因和次要基因的地位在不同的情况下可能会发生转换,共同决定性状的表达。 基因的表达不是一成不变的。很简单的例子是人在发育过程中,细胞知道什么时候在什么地点长出嘴巴、眼睛、鼻子、手指头等各个器官。一旦调控失败就有可能长出 6 个指头或者两个脑袋;基础分子生物学理论告诉我们同一段 DNA 片段可以转录成为多条不同的 mRNA ,然而什么时候转录多少条、转录到什么地方停止,并不能从测序中得出结果来。 DNA 甲基化,当然也可以去甲基化,然而什么时候会甲基化,什么时候又去甲基化也不能从序列中得出结论来。更重要的一点是这些变化都是由于外部环境或者内部调控引起的,这些变化均会引起基因表达的变化。 除此之外,内部一些并不编码蛋白质的 DNA 或者 RNA 片段也起到了调控基因的作用。这些调控或是有外界环境引发或是由内部某种相应的程序触发。因此仅仅依靠基因组的结构片段并不能看清整个生命活动的本质。 尽管很多物种都公布了全基因组草图,其中包括多个模式生物。但是科学家对生命活动的本质探索还是一筹莫展。因为基因网络在时间上和空间上的调控是复杂多变的。如果说 21 世纪是各个击破解析基因的结构和功能,那么 22 世纪就是把基因整合起来研究它们的整个调控网络——即系统生物学的部分研究内容。