博文

药物发现公司正在运用ChatGPT研发药物

已有 1289 次阅读 2023-11-3 09:51 |个人分类:人工智能（AI）|系统分类:海外观察

药物发现公司正在运用ChatGPT研发药物

大型语言模型（LLMs）正在帮助科学家与人工智能对话，甚至生成潜在的药物靶点。

编译李升伟 茅矛

（特趣生物科技有限公司，广东深圳）

最近几个月，作为一种文本生成引擎，OpenAI旗下的ChatGPT的横空出世震惊了世界，这是一种人工智能(AI)算法，能够生成看起来像是由人类编写的文本。微软和谷歌等科技公司投以巨资致力于利用这类引擎来改进搜索，但有一些公司担心它们可能会导致大量抄袭论文、虚假新闻和糟糕的打油诗，尽管如此，生物技术公司正在考虑利用这些算法来支持自己的业务，以多种方式促进药物发现的进程。

图片1.png

图注：有关公司正在采用大型语言模型来帮助药物发现。图片来源：路透社/阿拉米图片社

已经依靠AI寻找新药的生物技术公司可以将文本生成作为一种简单、直观的方式，与其他一些AI和机器学习工具进行交互。哈佛大学陈曾熙公共卫生学院流行病学家、生成生物医学（Generate Biomedicines）公司机器学习负责人安德鲁•比姆（Andrew Beam）称，ChatGPT是“一个非常有趣的界面”，它让用户可以比目前的界面更轻松地使用其他形式的人工智能。

例如，位于纽约和香港的Insilico Medicine是一家通过其AI驱动平台搜索潜在药物靶点的公司，现在正在使用ChatGPT作为与其靶标发现平台互动的新方式，增强了知识图谱提供的关系和整合——这在以前是整合数据的主要方法。计算化学家彼得里娜•卡米娅（Petrina Kamya）是Insilico Medicine公司蒙特利尔分公司总裁和AI平台负责人，她表示，在ChatGPT的帮助下，他们可以与自己的药物发现系统对话：“你不需要点击、点击、再点击，你只需要问一个问题，它就会生成你可以阅读和能够理解的文本。”

除了利用聊天机器人来帮助制作书面材料，如论文、专利或拨款申请书，其他人还将它们专门用于药物发现，作为一种专门针对生物科学的高级搜索引擎。阿拉巴马大学伯明翰分校的计算化学家、Ainnocence公司创始人兼首席执行官潘鲁荣(Lurong Pan)说：“我们可以有一个更专业化的聊天机器人，例如，Bio ChatGPT或Med ChatGPT。”Ainnocence是一家生物技术公司，拥有一个帮助药物发现的平台。“这可能会改变人们搜索的方式。”例如，谷歌和DeepMind公司今年早些时候发布了Med-PaLM，这是一个旨在提供医疗问题答案的聊天机器人。

所有这些聊天机器人都是基于大型语言模型(LLMs)，LLMs是一种生成式AI算法，能够创建以前不存在的数据。这些算法是根据从互联网上收集的数百万个文本样本进行训练的。对于文本，LLMs可以学习单词之间的统计关系。然后，根据给出的提示，比如一个问题，它们通过预测哪个单词最有可能跟在前一个单词后面来生成文本。结果看起来非常自然，当然，也存在这样的问题，聊天机器人经常做出与现实不符的陈述，即所谓的“幻觉”事实。ChatGPT是基于一种名为生成预训练转换器的大型语言模型；Med-PaLM是借鉴了谷歌的路径语言模型；而谷歌正在将其纳入其搜索引擎的更广义的聊天机器人Bard，则依赖于对话应用语言模型(LaMDA)。

卡米娅说，这些LLMs已经被证明对药物狩猎者很有用。以前，Insilico平台的用户能够查看知识图谱，即与特定疾病相关的基因以及已知与这些基因相互作用的物质的可视化表示。这是有用的信息，但研究人员使用它的方式有限。卡米娅说，现在，随着聊天功能的增加，数据变得更容易获取了。“能够与这个工具进行对话所带来的授权是非常强大的。如果你能够以你想要的方式查询我们的生物医学知识图谱，会让它变得更有兴趣和好玩。”她说。

例如，如果一位科学家想要研究牛皮癣，聊天机器人可以查看该疾病的知识图谱。它将提供一份文本描述，包括牛皮癣的主要信号通路和基因，以及已知与它们相互作用的化合物。然后用户可以问任何问题，例如，“这张图中有多少个基因?”——并得到即时回答，或者寻找基因与特定疾病（如肉瘤）之间的联系。这个名为熊猫组学（PandaOmics）的Insilico平台将显示，肉瘤的首要靶基因是PLK1。用户可以进一步询问，要求链接到特定的途径——例如，细胞凋亡——并立即得到答案。

就这样，ChatGPT生成了会话输出。然后，Insilico会用额外的预测AI程序来验证聊天中的内容，这些程序是根据多年来收集的数据进行训练的。因此，“我们的输出非常准确，”该公司创始人兼首席执行官亚历克斯•扎沃龙科夫（Alex Zhavoronkov）说。扎沃龙科夫的母语不是英语，他在写论文时也使用ChatGPT来帮助自己进行语法上的润色。就在最近，他将ChatGPT列为一篇期刊文章的合著者，引起了不小的争议。

科学家们还发现LLMs有助于链接数据并以不同的方式表示数据。总部位于英国牛津的制药公司Exscientia的首席技术官加里•帕劳多（Garry Pairaudeau）表示，该公司一直在对LLMs进行试验，将普通的英语语句翻译成结构严谨的断言，帮助他们生成知识图谱。

LLMs仍在不断发展，开发人员以极快的速度添加功能。去年11月30日发布的ChatGPT基于OpenAI的GPT 3.5版本；更新版GPT-4于今年3月中旬发布，性能大大优于其前身；3月底，ChatGPT添加了一个所谓的检索插件，它可能被证明对药物发现特别有用。这是一个允许软件搜索个人或公司文档的模块，伦敦一家AI驱动的生物技术公司BenevolentAI的首席技术官丹•尼尔（Dan Neil）对此感到很激动，因为它可以根据公司自己的数据定制聊天功能。“如果你在公司内部文件中写了一个专业实验，你可以说，‘嘿，看看我们内部得到的这些结果，这对你的想法有什么影响？你能在生命科学中找到或想象其他新的方法来利用我们发现的信息吗?’”他说。

尽管它们的名字叫语言模型，各种语言模型可以不需要用英语或其他人类语言进行训练。导出统计关联的相同技术可以应用于DNA或蛋白质序列这样的“语言”。然后，它们可以产生新的蛋白质，而不是新的句子，这些蛋白质可能成为很好的药物靶点。“这种想法是相同的，”比姆说，“但我们向它展示的是生物数据，而非来自互联网的文本。”

一些人担心，训练AI系统来设计出极有可能击中靶点的分子，需要大量的数据、并由人类手工标记；而且这样的信息收集并不总是及时出现，因为定期生产提供这些信息的公司并不总是热衷于分享这些信息。但是，允许ChatGPT写句子的方法可能为新分子设计提供完美的解决方案，潘说。提供了大量未标记数据的语言模型——比如UniProt数据库中包含的近2.5亿个蛋白质序列——可以自己推导出分子构建块之间的正确关系。

Bioxcel Therapeutics公司利用人工智能来识别在2期或3期临床试验中被搁置的药物，甚至是在获得批准后被搁置的药物，该公司正在考虑用LLMs从不同的数据库中挑选出潜在的赢家。但是，神经科学家、Bioxcel公司首席科学官弗兰克•尤卡（Frank Yocca）表示，LLMs只有在适合Bioxcel的AI工具套件的情况下，才能证明其价值。他警告说：“就我们得到的回馈而言，目前它还不是很准确。但我们还刚刚开始处于起步阶段。”

确保结果准确并避免AI幻觉的一种方法是尼尔所说的“证据浮现”。当一种LLMs声称自己是事实时，他的公司会添加一种算法，提供引用文献和参考文献来支持这一说法。他们的系统使用语义搜索——一种评估单词含义的方法——从论文和生物学课本中提取支持某个断言的句子。在其安排下，该系统从数以百万计的文件中选择一些相关的句子，并将它们呈现给人类专家，然后人类专家可以通过这个小型的数据子集来判断所声称的事实是否属实。

尤卡说，人们可能会被最新技术所诱惑，而忽略了它是否真的能有助于他们实现目标。他说：“仅仅让机器做你想做的事情，而不一定能给你一个功能性的答案，这可能会让你精疲力竭。我们试图避免这种情况。”

并不是所有人都加入了ChatGPT的行列。“基本上，我们已经拥有了所有的工具来产生我们想要的东西，我们已经在探索大量的信息，我们现在不打算扩大更多人员规模。”巴黎 Enterome生物科技公司的免疫学研究主管乔昂•马加赫伊斯（Joao Magalhaes）说。但是，他担心出于训练LLMs的目的而提供患者信息可能会损害个人隐私。不过，他并不反对采用新的AI技术。例如，该公司使用DeepMind公司开发的AI系统AlphaFold，该系统可以查询氨基酸序列，并利用这些序列预测蛋白质的三维结构，包括许多以前未知的蛋白质。“这对我们来说是一个巨大的进步，”马加赫伊斯说，他将密切关注ChatGPT，如果它看起来可能有用，公司将考虑采用它。

比姆指出，其他类型的生成式AI，比如可以从随机噪声中生成图像的扩散模型，已经进入了生物学领域。因为这些模型可以创建蛋白质结构的新图像，它们“可以说是药物发现和药物开发的更直接的途径。”比姆说。

他说，至少ChatGPT的兴起让人们普遍意识到生成式AI的潜力，并鼓励生物技术公司对此进行更深入的研究。“ChatGPT已经让每个人都认识到了生成式模型的力量。”比姆说。

资料来源Nature Biotechnology

原文链接：Drug discovery companies are customizing ChatGPT: here’s how | Nature Biotechnology https://www.nature.com/articles/s41587-023-01788-7

转载本文请联系原作者获取授权，同时请注明本文来自李升伟科学网博客。
链接地址：https://m.sciencenet.cn/blog-2636671-1408275.html

上一篇：大数据生物学：概念分析
下一篇：《自然》不允许在图像和视频中使用生成式人工智能，为什么？

lisw05的个人博客分享 http://blog.sciencenet.cn/u/lisw05

博文

药物发现公司正在运用ChatGPT研发药物

药物发现公司正在运用ChatGPT研发药物

当前推荐数：4 推荐人：许培扬 宁利中 刘进平 郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

李升伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

lisw05的个人博客分享 http://blog.sciencenet.cn/u/lisw05

博文

药物发现公司正在运用ChatGPT研发药物

药物发现公司正在运用ChatGPT研发药物

当前推荐数：4 推荐人： 许培扬 宁利中 刘进平 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李升伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：4 推荐人：许培扬宁利中刘进平郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)