博文

Nature子刊：宏基因组组装基因组实现谱系解析

已有 2671 次阅读 2022-1-19 19:46 |个人分类:读文献|系统分类:科研笔记

宏基因组组装基因组实现谱系解析

MAGs achieve lineage resolution

Nature Microbiology [IF: 17.745]

DOI：https://doi.org/10.1038/s41564-021-01027-2

发表日期：2022-01-03

第一作者：Taylor E. Reiter¹

通讯作者：C. Titus Brown
(ctbrown@ucdavis.edu)¹

主要单位：

¹美国加州大学戴维斯分校(Department of Population Health and Reproduction, University of California, Davis, Davis, CA, USA)

正文

高度准确的长读长测序和基因组联系图的组合已被用于从来自绵羊粪便样本中分离出的复杂微生物群落中产生数百个谱系解析的宏基因组组装基因组。

从环境测序的早期开始，通过宏基因组测序对微生物基因组进行谱系或菌株解析重建一直是一个重要但难以实现的目标。Bickhart 等人最近在 Nature Biotechnology上发表的一篇论文通过结合使用 HiFi 测序、Hi-C 分箱和计算定相方法来解析基因组分箱，从被测序的绵羊粪便样本中产生数百个谱系解析基因组，朝着这一目标迈出了一大步。这项工作还有力地证明了通过将新的生物合成基因簇和质粒纳入基因组分箱，可以从谱系解析宏基因组学中获得生物学见解。

至少在某些情况下，由于其菌株基因组含量的差异，同一物种的微生物在不同的微生物组中可能具有非常不同的功能。特定微生物物种的菌株特异性基因组中基因、其他遗传元件和噬菌体岛的集体存在与否，可以提供有关该菌株的功能及其栖息的微生物组的关键信息。

以单个谱系的分辨率理解宏基因组数据是宏基因组学的一个重要目标。然而，在微生物组中识别或恢复菌株特异性谱系非常困难。使用 16S rRNA 和其他以基因为中心的分析进行测序不能可靠地识别谱系，也不能对整个基因组进行采样。参考数据库通常缺乏相关的谱系，有时甚至缺乏物种，因为许多环境没有被采样到足够的深度。

宏基因组学在从宏基因组生成候选物种水平的基因组方面非常成功，即宏基因组组装基因组 (MAGs)，这种方法极大地增加了我们对生物多样性的了解。典型的 MAG 工作流程涉及从一个或多个宏基因组数据集创建重叠群(contigs)的从头组装，然后根据组成和丰度信息，通过计算将这些重叠群“装箱”到物种级分箱中(图1)。

然而，这些物种级别的分箱不包含附属元件或宿主 - 质粒关联，并且该方法通常涉及人工管理。

图 1 基于宏基因组数据重建基因组

Reconstructing genomes on the basis of metagenome data

从头宏基因组分析依赖于读长中的重叠序列、丰度图谱和核苷酸使用偏差，重建宏基因组样本中密切相关谱系(绿色和紫色)的物种水平复合物。当局部序列变异太大或测序覆盖率太低时，一些读长不会组装或分箱进宏基因组组装的基因组中。高度准确的长读长测序与接触图的结合产生了谱系解析的基因组，这些基因组保留了与染色体外元件（宿主-质粒对，紫色）的关联。这种方法使从单个样本中分离密切相关的谱系成为可能。

从宏基因组进行谱系解析的基因组重建更具挑战性，因为它必须涉及区分不同谱系之间仅略有不同的长段基因组序列。长读长和链接读长测序的进步促成了MAGs 的改进，但与提取足够数量的高分子量 DNA、读长、覆盖不均匀和高测序错误率相关的挑战阻碍了谱系特异性的确定。生物信息学方法已经投入了相当多的努力来从短读长据中恢复和/或推断谱系和谱系关联，但这些方法仍然存在潜在的偏见和缺乏直接关联信息。

在这方面，Bickhart 等人最近的论文是一个令人兴奋的进步。该研究结合了HiFi长读长测序，其错误率低于其他长读长测序方法，因此具有很高的准确度，并基于序列的Hi-C图谱进行分箱以生成高质量的初始组装(图1).作者介绍了 MAGPhase，这是一种改编自转录本异构体分析的定相方法，该方法使用单核苷酸多态性和测序深度来产生 220 个谱系解析的 MAGs。作者提出了令人信服的证据，证明这些确实是单独的谱系，包括读长深度覆盖图和对装配图的仔细检查。作者证明，与其他宏基因组方法相比，该技术在组装生物合成基因簇方面具有更高的预测能力，以及重建宿主-质粒关联的能力。

对不同测序方法结果的评估和比较也清楚地表明了使用短读长测序从宏基因组数据重建基因组的挑战。在方法的直接比较中，Bickhart 等人表明，他们的许多 HiFi 谱系解析分箱基因组被非 HiFi 读长折叠成包含多个谱系的单个分箱。他们还表明，短读长比对无法可靠地区分 HiFi 基因组的高度重复或直系同源基因区域中的多态位点，突出了计算解决短读长谱系的挑战。

这并不是说基于 HiFi 的方法在当前状态下是无偏差的。这些偏差包括高丰度群落成员的有限重建，以及基于用于长读长DNA提取实验方法的明显分类学偏差。此外，新技术并没有改善从宏基因组中回收真核基因组，并且对于完整的病毒颗粒捕获和基因组重建可能需要不同的DNA制备步骤。无论如何，这项技术为宏基因组学领域提供了一套探索生态进化压力的方法，这些压力塑造了微生物群落，否则鉴于以前MAGs 的局限性，这些压力是不合适的。其中包括在分离物测序方面首创的方法，例如根据非同义和同义替代率估计自然选择的模式和强度、跟踪水平基因转移和重建泛基因组。

当然，仍然存在许多挑战。Bickhart 等人的研究虽然很有前景，但使用了依赖高浓度优质 DNA 的昂贵测序技术。需要进一步的研究来确定这里采用的技术是否可以应用于更复杂的环境样本，例如来自海洋和土壤的环境样本，这些样本更加多样化，并且通常会带来巨大的 DNA 提取挑战。还需要大量的计算进步来正确分析和关联即将由这些方法产生的大量的谱系解析的基因组序列，并且需要新的方法将谱系解析的基因组信息与微生物组生物学联系起来。Bickhart 等人取得的进展使该领域从概念化这些挑战转向解决它们。

编译：旭日阳光
责编：马腾飞南京农业大学
审核：刘永鑫中科院遗传发育所

Reference

Taylor E. Reiter,C. Titus Brown.MAGs achieve lineage resolution. Nature Microbiology,(2022). https://doi.org/10.1038/s41564-021-01027-2

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://m.sciencenet.cn/blog-3334560-1321751.html

上一篇：ISME：林科院袁志林等-冷杉优势真菌共生发育的基因家族趋同演化及平衡选择机制
下一篇：Nature子刊：来自人类肠道菌群的189,680种DNA病毒基因组集

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Nature子刊：宏基因组组装基因组实现谱系解析

宏基因组组装基因组实现谱系解析

正文

图 1 基于宏基因组数据重建基因组

Reference

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

刘永鑫

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

Nature子刊：宏基因组组装基因组实现谱系解析

宏基因组组装基因组实现谱系解析

正文

图 1 基于宏基因组数据重建基因组

Reference

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

刘永鑫

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)