heavier的个人博客分享 http://blog.sciencenet.cn/u/heavier

博文

[转载]大语言模型助力遗传病分子诊断 | The Innovation

已有 715 次阅读 2023-10-16 09:51 |系统分类:科普集锦|文章来源:转载

Transformer模型是一种新的机器学习模型,已成功应用于理解和生成自然语言(比如ChatGPT),也成功的用于多个生物医学领域(比如进行蛋白质结构预测的AlphaFold)。蛋白质序列上的错义突变是导致人类遗传病的主要元凶之一。本研究提出了一种基于Transformer架构的新方法MutFormer,用于预测有害的错义突变。通过对蛋白质序列、常见变异和有害变异的学习,MutFormer在多个独立测试集上均有优异的表现,可与现有方法互为补充,实现利用大语言模型为遗传病分子诊断提供新的工具。

T Jiang, L Fang TheInnovation创新 2023-10-10 00:02

大语言模型-640.png

图1 大语言模型助力遗传病分子诊断。利用强大的AI算力,MutFormer在预训练中学习了人类蛋白质序列(及其常见变体)中数千万种不同的上下文依赖关系,并且在后续的训练中学习如何识别有害错义突变。

在DNA中,每三个核苷酸构成一个密码子,对应一个特定的氨基酸。错义突变(Missense Mutation)是一种常见的基因突变类型,它是指DNA编码序列中的一个核苷酸被替换成了另一个核苷酸,引起蛋白序列中对应的氨基酸被替换。错义突变可能导致蛋白质功能异常,进而引起疾病或其他健康问题,是导致人类遗传病的主要元凶之一。然而由于遗传多态性,正常人群中存在着大量良性的错义突变。尽管多个数据库(如ExAC、gnomAD、ClinVar、HGMD等)中记录了大量良性或有害的错义突变,在遗传病分子诊断时,依然有很多错义突变无法在数据库中寻找到匹配。判断错义突变是否有害是当前遗传病分子诊断领域的一个主要挑战。

目前有多种预测错义突变是否有害的方法,然而其准确性有很大提升的空间。Transformer模型是一种序列模型,可以很好的学习和模拟序列中远距离的上下文依赖关系,最初应用于自然语言处理(Natural Language Processing, NLP)领域,在机器翻译、信息提取等多种任务上取得了良好的效果;近年来以GPT(Generative Pretrained Transformer)为代表的生成式Transformer模型在理解人类语言和人机对话方面取得了突破性进展。由于蛋白质存在三维空间结构,在一维结构中距离较远的两个氨基酸在三维空间中可能距离接近(即存在远距离相互作用),我们推测Transformer模型强大的上下文学习能力有利于模拟和预测蛋白质突变的功能。另一方面,卷积神经网络(convolutional neural network, CNN)可以很好的模拟短距离的依赖关系。相比Transformer模型的自注意力层(self-attention layer),卷积层往往具有更少的计算量和更高的执行效率。

基于上述分析,我们提出了MutFormer,一种预测有害错义突变的新模型。MutFormer利用自注意力机制和卷积机制各自的优势,学习蛋白质序列中氨基酸之间的长距离和短距离依赖关系(图2)。

由于已知的有害错义的突变数量(即训练样本数量)远远小于模型参数,为获得较好的训练效果和避免过拟合,我们采用迁移学习(transfer learning)的方法进行训练。我们首先在参考蛋白质序列和常见突变蛋白质序列上对MutFormer进行了预训练,使之学习正常蛋白序列中的上下文依赖关系。接下来,我们测试了三种不同的微调方法,发现微调时将突变蛋白序列和参考蛋白质序列配对输入可以取得最佳的预测效果。最后,我们将MutFormer与其他现有方法的性能进行了比较。我们发现,MutFormer在多个测试集上均有优异的表现。综上所述,MutFormer采用了以往研究中未涉及的序列模型,为有害遗传变异的预测提供了新的思路,为遗传病分子诊断提供了有利的工具。

大语言模型-f2-640.jpg

图2 MutFormer的训练方法与模型结构

总结与展望


目前预测错义突变功能的方法往往利用序列保守性、同源性等特征,或者采用集成模型(ensemble model)融合多个类似的方法。MutFormer是一种利用Transformer模型预测错义突变功能的全新方法,它直接根据突变后的序列进行预测。鉴于MutFormer提供了独立于以往方法的信息,我们期待它可以作为遗传病分子诊断的一个重要参考。同时我们希望MutFormer作为一种语言模型,能够提高我们对蛋白质序列这一“大自然的语言”的理解。


责任编辑


张群姿   山东大学

樊令仲   中国科学院自动化研究所


本文内容来自Cell Press合作期刊The Innovation第四卷第五期以Article发表的“Deciphering 'the language of nature': A transformer-based language model for deleterious mutations in proteins” (投稿: 2023-02-09;接收: 2023-07-25;在线刊出: 2023-07-27)。


DOI: https://doi.org/10.1016/j.xinn.2023.100487


引用格式:Jiang T., Fang L., Wang K. (2023). Deciphering "the language of nature": A transformer-based language model for deleterious mutations in proteins. The Innovation. 4(5), 100487.

原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00115-7

扫二维码|查看原文

image.png

通讯作者简介

image.png

方 立,副教授,中山大学“逸仙学者”、“百人计划”引进人才。2015年毕业于北京大学,获得理学博士学位。2016年至2022年在美国哥伦比亚大学和宾夕法尼亚大学/费城儿童医院进行博士后研究工作。2022年11月加入中山大学中山医学院遗传学与生物医学信息学系担任副教授、研究生导师。主要研究方向为1)遗传变异的检测和解读的计算方法;2)生物医学文本挖掘/自然语言处理。

Web: https://fanglab.cn

image.png

王 凯,宾夕法尼亚大学/费城儿童医院教授。本科毕业于北京大学,在Mayo Clinic和华盛顿大学获得硕士、博士学位。随后在宾夕法尼亚大学和费城儿童医院进行博士后研究。目前为宾夕法尼亚大学终身教授。他的研究兴趣是基因组学和生物信息学工具的研究和开发,以及在人类遗传病和基因组医学中的应用。

Web: https://wglab.org


往期推荐

AI-Link病理机器人:医学元宇宙与真实世界疾病诊疗的桥梁

► 点击阅读

人工智能助力主动脉夹层的个体化抗炎治疗

► 点击阅读

人工智能是否能提升“癌王”胰腺癌早期检出率?

► 点击阅读

生物信息学:在大数据和人工智能时代引领生物医学的创新与发展

► 点击阅读

走进癌症诊断的未来

► 点击阅读

机器学习策略发现HBV相关肝细胞癌预后新指标

► 点击阅读


语言模型在蛋白质表示和蛋白质设计领域的应用与挑战

► 点击阅读

空间转录组技术:解析肿瘤微环境的新型工具

► 点击阅读


科学网—[转载]解析催化剂表面再构机制来调控催化性能 | The Innovation Materials

科学网—[转载]深层组织健康监测新方案:可穿戴柔性光声贴片 | The Innovation Materials

科学网—[转载]践行生态文明建设的重要路径:发展基于生态系统质量管理的新型生态经济 | The Innovation


科学网—[转载]新冠紧急状态结束,挑战仍在继续 | The Innovation Medicine


科学网—[转载]多功能量子点点亮与重塑巨噬细胞 | The Innovation

科学网—[转载]不平等城市高温负担阻碍气候公义及可持续发展目标 | The Innovation

科学网—[转载]基于对环芳烷的双极性近紫外圆偏振发光材料 | The Innovation Materials

科学网—[转载]外量子效率达到35.2%的高性能红色延迟荧光材料 | The Innovation Materials

科学网—[转载] RXR—核内外双重调控肿瘤发生的关键因子 | The Innovation Life

科学网—[转载]容错拓扑量子计算的原理性验证 | The Innovation

科学网—[转载]The Innovation | First Impact Factor: 32.1


科学网—[转载]The Innovation Medicine 创刊 | Volume 1 Issue 1 Live Now


科学网—[转载]The Innovation Materials 创刊 | Volume 1 Issue 1 Live Now


科学网—[转载]The Innovation Geoscience 创刊 | Volume 1 Issue 1 Live Now


科学网—[转载]The Innovation Life 创刊 | Volume 1 Issue 1 Live Now


科学网—[转载]探索饮食、益生菌和肿瘤免疫治疗之间相互作用的新兴范式 | The Innovation


科学网—[转载]电荷调控:增强疫苗免疫效力的新方法 | The Innovation

科学网—[转载]将社会神经科学融入自主驾驶人机交互行为理解 | The Innovation

科学网—[转载]高分辨率卫星观测助力解决水文研究新难题 | The Innovation

科学网—[转载]人工冬眠是科幻还是科研? | The Innovation


科学网—[转载]时空深度挖掘,AI赋能城市计算新时代 | The Innovation


科学网—[转载]理解区域气候变化中更复杂的多维相互作用 | The Innovation


科学网—[转载]黑洞燃料的直接观测 | The Innovation

科学网—[转载]从地底到深空:核天体物理实验帮助解开古老恒星中元素产生之谜 | The Innovation

科学网—[转载]智能无人集群威胁将至,如何防御和对抗?| The Innovation


科学网—[转载]肠道干细胞逆行:结直肠癌预防的新启发 | The Innovation


科学网—[转载]揭开人体膜解剖的神秘面纱 | The Innovation


科学网—[转载]填充观测天文学的参数空间

科学网—[转载]漫漫“长征”路之艾滋病疫苗研发 | The Innovation

科学网—[转载]末次冰盛期气候塑造了中国陆生脊椎动物功能多样性格局及群落系统发育结构

科学网—[转载]载人深潜视野下的克马德克海沟 | The Innovation

科学网—[转载]新一代智能避障:仿生视觉模拟助力安全驾驶 | The Innovation

科学网—[转载]神经髓鞘脂质-神经信息传递的马其顿防线

科学网—[转载]大亚湾实验发布中微子振荡最精确测量结果

科学网—[转载]The Innovation | 太阳爆发活动的数据驱动模拟

科学网—[转载]绝缘量子材料中的热霍尔效应 The Innovation

科学网—[转载]人工智能:科学研究新范式 | The Innovation


The Innovation 简介

扫二维码 | 关注期刊官微

期刊-640.png

The Innovation是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊:向科学界展示鼓舞人心的跨学科发现,鼓励研究人员专注于科学的本质和自由探索的初心。作者来自全球54个国家;已被126个国家作者引用;每期1/5-1/3通讯作者来自海外。目前有196位编委会成员,来自21个国家;50%编委来自海外;包含1位诺贝尔奖获得者,37位各国院士;领域覆盖全部自然科学。The Innovation已被DOAJ,ADS,Scopus,PubMed,ESCI,INSPEC,EI等数据库收录。2022年影响因子为32.1,CiteScore为23.6。秉承“好文章,多宣传”理念,The Innovation在海内外各平台推广作者文章。


期刊官网:

www.the-innovation.org

www.cell.com/the-innovation/home

期刊投稿(Submission):

www.editorialmanager.com/the-innovation

商务合作(Marketing):

marketing@the-innovation.org


The Innovation 姊妹刊

image.png


The Innovation

image.png

image.png


期刊标识

期刊标识-640.jpg

See the unseen & change the unchanged

创新是一扇门,我们探索未知;  

创新是一道光,我们脑洞大开;  

创新是一本书,我们期待惊喜;  

创新是一个“1”,我们一路同行。



https://m.sciencenet.cn/blog-2497842-1405465.html

上一篇:[转载]解析催化剂表面再构机制来调控催化性能 | The Innovation Materials
下一篇:[转载]萧玉涛:棉铃虫超强适应能力的奥秘 | Innovation Webinar

2 刘朝峰 张一波

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 21:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部