科学网

 找回密码
  注册

tag 标签: DeepMind

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

蛋白质结构预测最新进展和DeepMind
热度 1 xjb 2018-12-8 10:39
CASP 是两年一度的蛋白质结构预测评比,主要用来衡量这个既困难又重要的领域的进展。 CASP 是完全 blind 的评比,也就是说参赛者在进行预测的时候真实的蛋白质结构可能还没有用实验技术解出来。 CASP 比赛有很多类别,最流行的是接触图( contact map )预测和三维结构预测。接触图预测是三维结构预测的关键一步,可以用来直接衡量所使用的人工智能技术的好坏。每一类别又有两种参赛者:人工组和服务器组。这两种参赛者都依赖于计算机软件,没有谁会真正去手工预测的。他们的区别在于: 1 )对每一个测试蛋白质,服务器有三天时间而人工组有三个礼拜; 2 )人工组可以看到和使用所有服务器组的结果,而服务器组是看不到其他组的结果的。因为这样,最好的人工组总是要好于最好的服务器组的。 DeepMind 在 CASP13 中取得了骄人的成绩,他们的新闻宣传提高我们这个领域在公众里面的知名度,但在某些地方也误导了公众。比如 有些报道宣传人工智能战胜人类; 误导公众以为他们使用的人工智能技术是完全原创的, 以为只有他们在这个领域取得进展,其他参赛者不堪一击; 误导公众以为这个问题已经被他们解决了。 DeepMind 参赛的类别是三维结构预测人工组,宣传战胜人类既不符合实际也毫无意义。 DeepMind 没有参加接触图预测,所以无法直接衡量他们的人工智能技术到底有多好。他们团队口头告诉我的是他们的精度跟我的服务器 RaptorX-Contact 差不多。 在三维结构预测人工组中,如果按总成绩排名, DeepMind 大概是第三名。 DeepMind 最擅长的是用来预测比较难的蛋白质,在这一类确实是最好的。在 32 个最难的测试蛋白质上, DeepMind 和第二名人工组的第一模型的平均 TM 得分分别是 0.5836 和 0.5208 (满分是 1 分)。这个结果并不能表明其他参赛者不堪一击,特别是考虑到 DeepMind 团队一共有 17 个训练有素的人员(有些不是全职做这个项目的,他们方法摘要上写了 10 个人的名字),远超其他团队的力量。那么是不是只有 DeepMind 取得进展呢?情况完全不是这样的。由于 CASP13 的测试蛋白质的难度与 CASP12 相当,我们可以通过比较这两次的预测精度来估计这个领域的进展。 在接触图预测中,所有排名靠前的组都取得远超 CASP12 的成绩,比如两次正式排名第一的 RaptorX-Contact 在 CASP12 和 CASP13 的得分 (L/5 远程精度 ) 分别是 47% 和 70% 。在三维结构预测中,两家最好的服务器 RaptorX-Contact (RaptorX-DeepModeller) 和 Zhang-Server (Quark) 在难的蛋白质上远远好于 CASP12 最好的人工组。基本上来说,大部分参赛者都取得了比 CASP12 好的成绩。这说明这个领域取得了非常大的进展,那么进展的真实原因是什么呢?肯定不是 DeepMind, 因为他们的方法到现在还没发表呢,大家在比赛前不可能知道他们的方法。其实看看 CASP13 参赛者提交的方法摘要就清楚了。基本上所有成绩好的组都使用了一个叫做全局性的深度卷积残差神经网络( Deep Convolutional Residual Neural Network )的方法去预测接触图或者距离图。而我刚好是第一个提出这个方法的,第一篇描述这个方法的论文《 Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model 》我于 2016 年 9 月份就贴在网上了, 2017 年 1 月 5 号正式发表于国际计算生物学协会的官方杂志《 PLoS Computational Biology 》,并于 2018 年获得了《 PLoS Computational Biology 》的突破 / 创新奖。这篇论文用了大量的结果(包括第三方 CAMEO 严格的测试结果)表明深度卷积残差神经网络可以极大提高蛋白质结构预测的性能。我于 2017 年在细胞子刊《 Cell Systems 》上发表了另外一篇论文指出这个方法也可以用来预测膜蛋白的结构。膜蛋白对制药很重要,但是用实验技术解膜蛋白的结构很困难,所以针对膜蛋白的预测技术尤其重要。 那么 DeepMind 在难的蛋白质上表现为什么是最好的呢? DeepMind 当然也实现了深度卷积残差神经网络,并且使用了更多层数和训练数据。但是不知道他们的神经网络到底比我的 RaptorX-Contact 改进了多少。另外,他们比我多做了一步,他们把深度卷积残差神经网络预测出来的信息输入到当前一个最强大的蛋白质建模软件 Rosetta 里面去构建三维结构。而我因为人太少(去年基本上是一个人在做)还没来得及使用 Rosetta 。 Rosetta 并不是 DeepMind 开发的,它是 David Baker 教授历经 20 多年开发出来的一个软件。 Rosetta 可以把一个差不多的三维结构优化得非常好。可以看出, DeepMind 真正赢的原因并不是方法上有很大的创新,主要在于工程上的整合,他们把每一个关键步骤都调试和优化地非常好。而大学或者研究所的团队一般是没有这么多人进行这方面的工作 , 今后要跟 DeepMind 竞争光靠一个小的研究组在工程上的优化是很困难的,一定要有一个新的非常好的想法。 这个领域在最近几年取得了比较大的进展主要在于两个方法: 1 )基于共进化的预测蛋白质接触图的全局分析方法。这个方法 1999 年在网上非正式发表,但是直到大概 10 年前才被重新注意到; 2 )基于深度卷积神经网络的蛋白质接触图或者距离图的全局预测方法。第一个方法对于真正难的蛋白质效果不好,一般只能作为第二个方法的输入。没有第一个方法作为输入,第二个方法也能做得不错。 DeepMind 的成绩进一步证实了这两个方法特别是后者的有效性。尽管进展很大,但是大部分预测结果的精度离实验技术还有点远,所以做实验的不用担心失业,刚买不久的电镜也不用担心浪费了。
7382 次阅读|1 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-17 04:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部