博文

Bioinformatics：吉林大学刘富组-深度学习从宏基因组序列中识别短病毒序列Virtifier

已有 2140 次阅读 2022-1-7 20:52 |个人分类:读文献|系统分类:科研笔记

Virtifier: 基于深度学习方法的宏基因组病毒序列分类方法

Virtifier: a deep learning-based identifier for viral sequences from metagenomes

Bioinformatics [IF: 6.937]

DOI：https://doi.org/10.1093/bioinformatics/btab845

发表日期：2021-12-15

第一作者：Yan Miao(苗岩) (miaoyan17@mails.jlu.edu.cn)¹

通讯作者：Yun Liu(刘云)¹

合作作者：Fu Liu(刘富), Tao Hou(侯涛)

主要单位：

¹吉林大学 (College of Communication Engineering, Jilin University, Changchun 130022, China)

摘要

动机

病毒是地球上最丰富的生物实体，是微生物群落的重要组成部分，作为人类的主要病原体，它们对人类的死亡率和发病率起着重要作用。从宏基因组中识别病毒序列对于后续对病毒的分析至关重要。由于第二代测序技术产生大量的短序列，大多数方法利用离散和稀疏的独热向量编码核苷酸序列，这在病毒识别中通常是无效的。

结果

在这篇文章中，我们提出了Virtifier，它是一种基于深度学习的用于识别宏基因组数据中病毒序列的分类器。它包括一个名为Seq2Vec的核苷酸序列编码方法和一个带有基于注意力的长-短期记忆(LSTM)网络的病毒序列预测器。Seq2Vec利用一个经过充分训练的嵌入矩阵来编码密码子，它可以有效地提取核苷酸序列中密码子之间的相互关系。与注意层相结合，LSTM神经网络可以进一步分析密码子关系并筛选对最终特征有贡献的部分。在三个数据集上的实验结果表明，Virtifier能够准确识别短病毒序列(<500bp)，超过了三种广泛使用的方法，VirFinder、DeepVirFinder和PPR Meta。

可用

Github上提供了Virtifier的Python实现和为本研究开发的Python代码 https://github.com/crazyinter/Seq2Vec 。本文中的RefSeq基因组可在VirFinder上获得，网址为 https://dx.doi.org/10.1186/s40168-017-0283-5 。本文中的CAMI数据集可从CAMI网站获得，网址为 https://data.cami-challenge.org/participate 。本文中真实的人类肠道宏基因组可在 https://dx.doi.org/10.1101/gr.142315.112 中获得。

背景

病毒是地球上最普遍和最丰富的生物实体，在控制细菌种群和改变宿主代谢从而影响人类肠道、土壤和海洋等微生物群落的功能方面扮演着重要角色。目前只一小部分病毒被人类发现，其中许多病毒可导致严重疾病。这些病毒的出现频率和传染性对人类健康构成巨大威胁。许多研究发现人类肠道微生物组(病毒和细菌)与相关疾病(如炎症性肠病和结直肠癌)之间存在关联。此外，最近出现的病毒疾病，如亚洲的SARS、COVID-19和西非埃博拉病毒等，都在人类社会中造成了巨大的发病率和死亡率。近些年，随着下一代测序(NGS)方法的出现和计算效率的发展，我们对微生物环境，特别是病毒群落的了解开始不再受限。NGS技术可以直接从微生物群落中提取所有物种的大量DNA片段。在提取过程中病毒不可避免地从这些样本中被提取出来。因而从大量病毒和宿主的混合序列中识别病毒序列是病毒发现和病毒分类等问题的重要步骤。然而因为混合的宏基因组序列中病毒所占的比例很小，而且病毒的突变率很高，这使得从大量病毒和宿主的混合序列中识别病毒序列变得特别困难。

近年来有很多方法用于区分宏基因组中的病毒和其他微生物。根据其判别标准，可大致分为基于比对的方法、基于基因的方法、基于k-mer的方法和基于深度学习的方法。基于比对的方法旨在匹配查询序列和已知病毒参考基因组之间的相似性，但需要大量的计算时间和内存的消耗。基于基因的方法通常从待测序列中提取多个基因，然后将这些基因映射到先前建立的病毒基因数据库中。这些方法通过检验待测序列是否具有足够的病毒基因信息来确定是否为病毒序列，但这些方法在预测短序列(<500bp)时不可靠，因为短序列中可能没有基因。此外，基因特征通常是根据人的经验手动设计，很难确定哪些特征更适合当前给定的任务。基于k-mer的方法将待测序列的k-mers与其构建的k-mer数据库进行匹配。然而，许多病毒可以通过模仿宿主的序列来克服宿主的防御机制，并且当序列长度较短时，k-mer频率过于稀疏，无法携带足够的特征。因此，基于k-mer的方法识别短病毒序列的总体性能较低。此外，k值越大，表示特征的维度越多，计算量也越大。基于深度学习的方法如DeepVirFinder、ViraMiner、PPR-Meta和CHEER等，都建立了卷积神经网络(CNN)来自动学习病毒序列的特征。通过大量序列的训练，这些模型在识别病毒序列(尤其是短病毒序列)取得了较高的准确性。尽管深度学习方法通过从有限长度的序列中学习更多高级特征，在检测短病毒序列方面取得了相对较好的性能，但其准确性仍需进一步提高。此外，现有的基于CNN的病毒识别工具由于CNN中的滑窗机制和池化层会导致序列丢失一些重要的信息。

几乎所有基于深度学习的方法都使用独热编码来编码碱基。然而，独热编码的核苷酸序列中的每个编码实体是独立的，这与实际情况不符，如每三个碱基可以构成一个密码子，具有固定长度的碱基可以表示为一个基因。并且独热编码得到的特征是离散且稀疏的，这些对病毒序列识别的准确性有着巨大的负面影响。考虑到长-短期记忆(LSTM)神经网络在神经语言处理(NLP)领域，特别是在对数百个单词的短句建模方面取得的巨大成功， LSTM网络在学习短长度核苷酸序列特征方面具有潜在优势。为了进一步提高从宏基因组数据中识别短病毒序列的性能，本文提出了一种基于深度学习的方法Virtifier。它包括一个新的核苷酸序列编码模型Seq2Vec和一个用于病毒预测的基于注意力的LSTM神经网络。实验结果表明，Virtifier能够准确地识别宏基因组中的短病毒序列，超过了三种广泛使用的方法：VirFinder、DeepVirFinder和PPR-Meta。Virtifier的整体结构框图如图1所示。

图 1 Virtifier的整体结构框图

结果

在RefSeq病毒和宿主基因组上的测试性能

Performance on testing virus and host RefSeq genomes

Virtifier的性能由两组具有不同长度短序列(300bp和500bp)的测试数据集进行评估。ROC曲线如图2所示。很明显，Virtifier的AUROC分数在300bp(图3a)和500bp()图3b)长度上都超过了VirFinder、DeepVirFinder和PPR Meta。在300bp长度上，Virtifier的AUROC值为0.9129，VirFinder为0.8290，DeepVirFinder为0.8886，PPR Meta为0.8900bp，在500bp长度上， Virtifier的AUROC值为0.9354，VirFinder为0.8931，DeepVirFinder为0.9128，PPR Meta为0.9275。

图 2 在测试数据集上的分类ROC曲线

图 3 在CAMI数据集上的分类PR曲线

在CAMI数据集CAMI challenge dataset 3 CAMI_high上的测试结果

Performance on CAMI challenge dataset 3 CAMI_high

经过BLAST比对后的短于500bp的CAMI数据集是极度不平衡的(病毒序列数量远远小于宿主序列)，因而绘制PR曲线如图3所示。Virtifier的PR曲线几乎所有部分都高于其他三个方法。Virtifier的AUPRC为0.6286，分别是VirFinder、DeepVirFinder和PPR Meta的5.45、2.74和1.36倍。

在真实的人体肠道宏基因组数据集上的分类结果

Performance on a real human gut metagenomic dataset

四种方法的ROC曲线如图4所示。Virtifier曲线的几乎所有部分都高于其他三个方法。我们也统计了四种方法正确识别不同长度短病毒序列数量(图5)，与VirFinder和DeepVirFinder相比，对于小于500bp的所有不同长度的序列，Virtifier识别出更多的病毒。虽然Virtifier在100bp到299bp之间的病毒序列识别数量略低于PPR-Meta，但Virtifier在300bp到500bp长度范围内性能更好，且总体上效果更好。

图 4 在真实人体肠道宏基因组数据集上的分类ROC曲线

图 5 使用这四种方法在真实人体肠道宏基因组中正确识别的不同长度病毒序列的比例

存在测序错误时Virtifier的识别效果

Sensitivity of Virtifier in the presence of sequencing errors

通常测序错误包括碱基替换和碱基插入或缺失。这里比较了Virtifier与VirFinder、PPR Meta、DeepVirFinder对两种测序错误的容忍度。使用MetaSim将真实人体肠道数据集中的测试序列进行3%的碱基替换和3%的碱基插入或删除操作。四种方法正确识别的病毒序列的比例如图6所示。图7显示了四种方法在3%碱基替换和3%碱基插入或删除中性能的变化。在每个长度范围内，就3%碱基替换而言，这四种方法比没有测序错误时识别的病毒数量更少，但Virtifier仍然是这四种工具中表现最好的。在3%碱基插入或缺失的情况下，VirFinder、PPR-Meta和DeepVirFinder识别的每个序列长度下的病毒数量都显著减少。然而，Virtifier下降的很少。在我们看来，这可能得益于Virtifier密码子的特性，当一个核苷酸序列中存在碱基插入或缺失时，划分的密码子的顺序不会发生很大变化。例如，当一个碱基被替换时，只有三个密码子被替换。

图 6 根据真实人体肠道宏基因组中3%的测序错误，四种方法正确识别病毒序列的比例

图 7 在真实人体肠道宏基因组测序错误为3%的情况下，四种方法识别性能的变化

结论

本文提出了一种基于深度学习的病毒识别方法(Virtifier)来识别宏基因组数据中的短病毒序列。它包括一种新的核苷酸序列编码方法Seq2Vec和一种带有基于注意力的LSTM神经网络的病毒序列预测器。Virtifier在CAMI数据集和真实人体肠道宏基因组中的应用证明，它在识别长度小于500bp的病毒序列方面优于VirFinder、DeepVirFinder和PPR Meta。宏基因病毒序列检测是病毒分析的第一步，它对接下来的病毒分析工作有重大影响。Virtifier将在病毒分类和病毒性疾病检测领域发挥重要作用。

Reference

Yan Miao, Fu Liu, Tao Hou, Yun Liu. Virtifier: a deep learning-based identifier for viral sequences from metagenomes.Bioinformatics,2021,1-7.https://doi.org/10.1093/bioinformatics/btab845.

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://m.sciencenet.cn/blog-3334560-1320002.html

上一篇：iMeta期刊推特官方帐号@iMetaJournal上线
下一篇：Science：无氧世界的古菌氨氧化

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Bioinformatics：吉林大学刘富组-深度学习从宏基因组序列中识别短病毒序列Virtifier

Virtifier: 基于深度学习方法的宏基因组病毒序列分类方法

摘要

动机

结果

可用