博文

每个生物学家都可以使用机器学习？

已有 968 次阅读 2023-7-5 16:53 |个人分类:生物科技|系统分类:观点评述

最近，科学家们建立了一个新的、全面的自动化机器学习平台---AutoML，这是为几乎没有机器学习（Machine Learning, ML）经验的生物学家设计的。新的AutoML平台能够以最少的编码对生物序列进行简单的、一体化的分析、设计和解释。这个平台称为BioAutoMATED，可以使用核酸、肽或糖类的序列作为输入数据，其性能可与其他AutoML平台相媲美，同时需要最小的用户输入。

由于基因测序技术成本下降和可用计算分析能力的增加，今天科学家产生的数据量是巨大的。但是，解析所有这些数据用以发现有用的信息，比在干草堆中寻找一根针的难度还要巨大。尽管，机器学习和其他人工智能（AI）工具可以极大地加快数据分析过程，但大多数的ML工具对于非ML专家来说很难获得，掌握和使用。最近，自动机器学习（AutoML）方法已经被开发出来，可以自动设计和部署ML工具，但它们往往非常复杂，也需要人工智能领域以外的科学家对ML有一定程度的掌握。

哈佛大学和麻省理工学院MIT 的Wyss生物启发工程研究所的一组科学家，通过为几乎没有ML经验的生物学家设计和建立的一个新型、全面的Wyss平台，填补了这个有巨大需求的空白。这个平台被称之为BioAutoMATED，可以使用核酸、肽或糖类的序列作为输入数据，其性能与其他AutoML平台相当，同时需要最小的用户输入。有关BioAutoMATED平台的资料发表于《Cell Systems》杂志，可从GitHub下载。

自动化机器学习工具是为那些没有能力建立自己的自定义ML模型的人准备的，许多人都会遇到这样的问题：我有这个很酷的数据集，ML对它有用吗？我怎样才能把数据集放到一个ML模型中呢？ML的复杂性是阻止我进一步利用这个数据集的原因，那么我如何克服这个问题呢？我们希望让生物学家和其他领域的专家，能够轻松掌握利用机器学习和自动机器学习的能力来回答该领域的基本问题，并帮助揭示和解读有意义的生物学信息。

面向大众的自动机器学习技术

像许多伟大的想法一样，生长成为BioAutoMATED的种子并不是在实验室里播种下的，而是在午餐时种下的。一天，Drs. Valeri, Soenksen和Collins在Wyss研究所的一个餐桌上一起吃饭，当时他们意识到，尽管该研究所被誉为世界级的生物研究机构，但在那里工作的顶级专家中只有少数人有能力建立和训练ML模型，而掌握和训练ML模型可能对他们的工作大有益处。

从那一刻起，他们就打算对这件事做些什么。我们希望Wyss研究所处于人工智能生物技术革命的前沿，我们也希望这些工具的开发是由生物学家推动，并为生物学家服务。现在，每个人都同意人工智能是未来，但在四年前，当我们有这个想法时，它还不是那么明显，特别是在生物研究领域更是如此。因此，最初AutoML平台只是一个我们想建立的工具，为我们自己和我们在Wyss研究所的同事服务，但现在我们知道，它可以为更多人服务。

虽然有各种AutoML系统已经开发出来，用来简化从数据集生成ML模型的过程，但它们通常都有缺点；其中的一个问题是，每个AutoML工具在寻找最佳解决方案时，都被设计成只是针对一种类型的模型（例如，神经网络）。这就把所产生的模型限制在一个狭窄可能性的范围内，而实际上，将完全不同类型的模型整合到一起可能是更为理想。另一个问题是，大多数AutoML工具并不是专门为生物序列数据的输入而设计的。已经开发了一些工具是使用语言模型来分析生物序列的，而这些工具缺乏自动化功能，而且很难使用。

为了建立一个强大的，用于生物学的一体化AutoML，该团队修改了三个现有的，各自使用不同的方法来生成模型的AutoML工具： AutoKeras，是一种寻找最佳神经网络的方法；DeepSwarm，使用群集算法搜索卷积神经网络；TPOT，使用包括遗传规划（genetic programming ）和自学习（self-learning）等多种方法搜索非神经网络。然后，BioAutoMATED为所有上述三种工具产生标准化的输出结果，这样用户就可以轻松地进行比较，确定哪种类型的AutoML能从他们的数据中产生最有用的答案。

该团队建立的BioAutoMATED能够接受任何长度、类型或生物功能的DNA、RNA、氨基酸和糖类（细胞表面的糖分子）的序列作为输入数据。BioAutoMATED自动对输入数据进行预处理，然后生成模型，仅根据序列信息就能预测该分子的生物功能。平台还有一些其他功能，帮助用户确定他们是否需要收集额外的数据来提高输出信息的质量，了解模型最 "关注 "序列的哪些特征可能更具有生物意义，并能够为未来的实验设计新的序列。

核苷酸、肽和糖类

使用这个新的平台框架来进行试用或试验，研究人员首先用它来探索改变一段称为核糖体结合点（RBS）的RNA的序列，是如何影响核糖体与RNA结合并将其翻译成大肠杆菌中蛋白质的效率。将他们的序列数据输入BioAutoMATED，确定了一个由DeepSwarm算法生成的模型，可以准确预测翻译效率。这个模型的表现与专业ML专家创建的模型一样好，但只用了26.5分钟就生成了，而且只需要用户输入10行代码（其他模型可能需要750行以上）。他们还使用BioAutoMATED来确定序列中哪些区域是决定翻译效率的最重要因素，并设计出可以进行实验的新序列。

然后，他们继续将肽和糖的序列数据输入BioAutoMATED，并利用结果来回答有关这些序列的具体问题。该系统产生了高度准确的信息，即肽序列中的哪些氨基酸在决定抗体与药物Lucentis单抗结合的能力最为重要，并且还根据序列将不同类型的聚糖分为免疫原性和非免疫原性组。该团队还用它来优化基于RNA的趾甲开关（Toehold switches，一种基于RNA的分子开关，可以在细胞内启动特定基因表达，是用于控制基因表达和调查细胞信号转导通路。为设计新的趾甲开关提供信息，以便在用户的最小输入编码下进行实验测试。

研究人员认为最终能够证明BioAutoMATED可以帮助人们：1）识别生物数据中的模式；2）对这些数据提出更好的问题；3）快速回答这些问题。所有这些都是在一个单一的框架内进行的--而且不需要自己成为一个ML专家。

在BioAutoMATED 的帮助下预测产生的任何模型，与任何其他ML工具一样，都需要在实验室中进行实验验证。该团队希望将其进一步整合到不断增长的AutoML工具集中，有朝一日将其功能从生物序列分析扩展到任何类似的序列分析对象，如指纹。机器学习和人工智能工具已经存在了一段时间，但只是随着最近用户友好界面的发展，它们才爆炸性地流行起来，就像ChatGPT一样。希望BioAutoMATED能够使下一代生物学家更快、更容易地发现生命现象的基础。

使非专业人员能够使用这些平台，对于能够充分利用ML技术的全部潜力来解决生物学和其他领域的长期问题至关重要。该团队的这一进展是使人工智能成为生物学家和生物工程师的关键合作伙伴迈出的重要一步，

转载本文请联系原作者获取授权，同时请注明本文来自阎影科学网博客。
链接地址：https://m.sciencenet.cn/blog-3302154-1394160.html

上一篇：解锁延长端粒长度和健康长寿的秘密
下一篇：四年前我们的端粒长度检测

jhsbj的个人博客分享 http://blog.sciencenet.cn/u/jhsbj

博文

每个生物学家都可以使用机器学习？

当前推荐数：1 推荐人：杨锦忠

该博文允许注册用户评论请点击登录评论 (0 个评论)

阎影

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

jhsbj的个人博客分享 http://blog.sciencenet.cn/u/jhsbj

博文

每个生物学家都可以使用机器学习？

当前推荐数：1 推荐人： 杨锦忠

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

阎影

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：杨锦忠

该博文允许注册用户评论请点击登录评论 (0 个评论)