博文

NBT：Rob Knight团队发表微生物组数据降维新方法

已有 2435 次阅读 2020-9-2 21:58 |个人分类:读文献|系统分类:科研笔记

上下文感知的降维解卷积肠道微生物群落动态

Context-aware dimensionality reduction deconvolutes gut microbial community dynamics

Nature Biotechnology [IF:36.558]

https://doi.org/10.1038/s41587-020-0660-7

发表日期：2018-05-23

中文版更新时间：2018-03-30

第一作者：Cameron Martino,^1,2,3, Liat Shenhav⁴

通讯作者：Rob Knight^1,3,14,15 robknight@ucsd.edu

合作作者 Clarisse A. Marotz, George Armstrong, Daniel McDonald, Yoshiki Vázquez-Baeza, James T. Morton, Lingjing Jiang, Maria Gloria Dominguez-Bello, Austin D. Swafford, Eran Halperin

主要单位：

¹美国加州大学圣地亚哥分校微生物组创新中心(Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA)

⁴美国加州大学洛杉矶分校计算机科学系(Department of Computer Science, University of California Los Angeles, Los Angeles, CA, USA.)

摘要

人类微生物组研究的解读能力受到个体间差异很大的限制。我们描述了一种降维工具，成分张量因子分解（compositional tensor factorization，CTF），该工具将来自多个样本中同一宿主的信息合并在一起，以揭示驱动表型微生物组成差异的模式。 CTF可以识别稀疏成分数据集中的稳健模式，从而可以检测与可在数据集之间重现的特定表型相关的微生物变化。

正文

与宿主相关的微生物群通常是宿主特异性的，受试者驱动着大部分变异。这种特定于宿主的变异可以掩盖与给定表型广泛相关的微生物变化。从同一参与者纵向或从不同身体部位（即“重复测量”）收集多个样本，是控制个体差异的有效实验方法。然而，由于微生物组测序数据集的性质，利用这种类型的实验设计存在多个挑战。

探索微生物组测序数据的一种常用方法是对距离矩阵进行降维（例如，主坐标分析（PCoA）），该矩阵描述了样本之间的关系，从而可以观察到整个数据集的整体差异。但是，当应用于重复测量时，此方法并未考虑固有的时间或空间相关性结构。分析重复测量微生物组数据的一种替代方法是使用监督方法，该方法专注于推断这些群落动态的生成模型（例如，广义Lotka Volterra）。尽管这些方法考虑了由重复测量引起的相关结构，以及稀疏性和组成性，但它们的输出不能直接允许微生物群落动力学对表型进行聚类。

为了同时应对这些挑战，我们开发了成分张量因子分解（CTF），可以对重复测量的数据进行无监督的降维，从而生成传统的β多样性分析以及差异特征丰度评估。第一步，使用稳健的中心对数比技术转换二维矩阵，以考虑到下一代测序数据集的固有稀疏性和组成特性（图1a）。接下来，将这个转换后的矩阵重构为三维张量，该张量与微生物序列，采样的宿主以及时间或空间有关（图1b）。该张量的分解（即分解）为对象（U），微生物特征（V）和时间点（W）提供了不同的向量（图1c）。与参考框架的概念类似，这些向量是按单位缩放的，因此可以排序，其中它们的排名表明它们与基础表型组的关联。从这里开始，我们将这些向量的顺序称为“排名”（即“功能排名”）。值得注意的是，CTF假设数据具有潜在的低等级结构，其中只有少数表型因素解释了大部分方差（图1d–g）。

图1：CTF算法概述

Fig. 1: Overview of the CTF algorithm.

a，随着时间的推移，CTF使用对象的特征丰度矩阵。对于具有感兴趣表型的每个受试者，数据表示为特征随时间的相对丰度（灰度表示的丰度梯度）。
b，将矩阵连接，以鲁棒为中心的对数比进行预处理(Preprocessing with robust-centered log ratio，rclr)转换并构造为张量格式，并具有与对象、特征和时间相对应的模式。
c，然后仅基于观察到的数据将结果张量分解为每个维度（即对象，时间点和特征）的加载向量。
d，模拟计数数据绘制在三个分类单元的y轴上，均值以粗体显示，而粗体线缺少缺失值。分布的标准偏差在阴影后面。比较两种表型；时间不变的控件（左）和在时间点2有扰动的动态表型（右）。分类群1（蓝色）高度丰富且嘈杂，分类群2（红色）的丰富度较低，但在表型2中呈指数增长，而分类群3（橙色）随着表型2幅度的增加呈振荡性。
e–g，前两个主要成分来自CTF（PC1（顶部）和PC2（底部））的坐标轴（即载荷）绘制在y轴上，并带有相应的样本（e），时间（f）和特征载荷（g）。在PC1中，表型2与高负荷分类单元3（橙色，顶部）的不稳定振荡波形相关。类似地，在PC2中，表型2与高负荷分类单元2（红色，底部）的S形波形相关。

a, CTF uses feature abundance matrices for subjects over time. For each subject with a phenotype of interest, the data is represented as relative abundances of features (abundance gradient represented in grayscale) over time.
b, The matrices are concatenated, rclr transformed and structured into a tensor format with modes corresponding to subjects, features and time. c, The resulting tensor is then factored based only on observed data into loading vectors for each dimension (that is, subject, timepoint and feature). d, Simulated count data is plotted on the y axis for three taxa with the mean counts in bold and missing values absent from the bold line. Standard deviation of distributions are shaded behind. Two phenotypes are compared; a control unchanging in time (left) and a dynamic phenotype with a perturbation at timepoint 2 (right). Taxon 1 (blue) is highly abundant and noisy, taxon 2 (red) is lowly abundant but growing exponentially in phenotype 2, and taxon 3 (orange) is oscillatory with increasing amplitude in phenotype 2. e–g, The first two principal component axes (that is, loadings) from CTF (PC1 (top) and PC2 (bottom)) are plotted on the y axis with the corresponding sample (e), time (f) and feature loadings (g). In PC1, phenotype 2 is linked to the unstable oscillatory waveform of highly loaded taxon 3 (orange, top). Similarly, in PC2, phenotype 2 is linked to the sigmoidal waveform of highly loaded taxon 2 (red, bottom).

为了演示CTF的使用，我们将其应用于具有两个表型组的模拟纵向数据集。模拟是基于Halfvarson等人的真实纵向16S数据的分布而生成的，同时如Äijö等人[3]所述改变了测序深度和时间采样密度，选择该数据集是因为微生物之间的微生物组成和β多样性存在很大差异有或没有克罗恩病的受试者。我们通过PCoA将CTF与最新的beta多样性指标进行了比较，包括Jaccard，Bray-Curtis，Aitchison，未加权UniFrac和加权UniFrac。在我们的每个模拟中，按疾病状态进行的K近邻（KNN）分类显示，无论测序深度或纵向采集的样本数量如何，CTF都比现有方法具有更高的准确性（图2，补充表1和补充图1）。通过PERMANOVA F统计量，在所有级别的测序深度和更高的采样密度（≥3个时间点，图2）下，CTF也表现出更高的鉴别力。

图2：CTF在纵向计算机数据驱动的仿真中优于主流的距离度量

Fig. 2: CTF outperforms popular distance metrics in longitudinal in silico data-driven simulations.

在PERMNNOVA F统计量评估的不同时间采样密度（x轴）上，增加测序深度（500–10,000行），以作为区分能力的度量（左列），此外还通过曲线下面积（AUC）进行KNN分类交叉验证； n = 100，中间一栏）和平均精确召回率（APR，average precision-recall； n = 100，右栏）。在CTF（绿色）和常用距离度量标准Aitchison（蓝色），Bray-Curtis（橙色），Jaccard（灰色），未加权（紫色）和加权（红色）UniFrac中进行了比较。误差线代表s.e.m.

Increasing sequencing depth (500–10,000, rows) over differing temporal sampling densities (x axis) evaluated for PERMANOVA F statistic as a measure of discriminatory power (left column), in addition to KNN-classification cross-validation by area under curve (AUC; n = 100, middle column) and average precision-recall (APR; n = 100, right column). Compared among CTF (green) and popular distance metrics Aitchison (blue), Bray–Curtis (orange), Jaccard (gray), unweighted (purple) and weighted (red) UniFrac. Error bars represent s.e.m.

接下来，我们将CTF应用于两个已发布的数据集，这些数据集可跟踪婴儿肠道随时间的变化。分别缩写为ECAM（n个受试者，43岁）14和DIABIMMUNE（n个受试者，39岁）15的数据集分别跟踪了婴儿出生后前2年和3岁的情况。两项研究均观察到，分娩方式（即阴道分娩或剖宫产（剖腹产））可以区分微生物群落组成。与我们从模拟数据中得出的结果相似，与最新的β多样性指标相比，CTF在剖宫产婴儿的阴道鉴别方面要好十倍（补充图2a，b，3a，b和补充表2）。

我们试图检查CTF以无人监督的方式可重复性地鉴定差异丰富的微生物的能力。为此，我们比较了沿第一个变化轴的ECAM和DIABIMMUNE数据集之间的特征等级，发现它们之间具有显著相关性（Pearson相关性，R² = 0.974，P <10^-10）（补充图2）。尽管这两个数据集在sOTU级别上具有<50％的重叠（补充图2d），但在属级别上分组的高级水平、更底级别水平sOTU在两个数据集上都是相似的（补充图2e）。我们注意到，尽管这些数据集是使用不同的方法和不同的实验室收集和处理的，但CTF通过出生模式识别出了同一类群，从而驱动肠道微生物组分化，这表明婴儿中微生物的结构很稳健。

我们使用每个数据集中与阴道和剖宫产最相关的sOTU构建阴道分娩与剖宫产的分娩方式对数比（补充图4和方法）。沿时间，两个数据集中的出生方式基本上将样品分开（补充图5和补充表3）。我们注意到，这些出生模式的微生物特征不会被既定的区分因素（例如抗生素的使用或喂养方式）所混淆（补充图5）。但是，我们不能排除不可估量的混杂因素的可能性。接下来，我们结合ECAM和DIABIMMUNE出生模式比率所共有的那些sOTU，以创建“微生物出生模式签名”。

为了检验这种微生物出生模式签名的鲁棒性，我们在来自美国肠道项目（AGP）（n = 8,099）的大横截面数据集的数据中测试了其区分能力。我们发现，这一特征通过出生方式显著地区分了四岁以下的参与者（t检验P = 0.042，补充图6），这与我们以前的发现一致。跨多个数据集的这种微生物签名的鲁棒性突出了CTF识别与表型可重复关联的差异丰富特征的能力。

在ECAM和DIABIMMUNE数据集中，我们观察到整个婴儿发育过程中，随着时间的推移，阴道和剖宫产婴儿的样本变得越来越不明显（补充图2a，b）。同样，在AGP数据集中，微生物出生模式特征不再按照出生模式区分参与者，即来自四岁以上参与者的样本。

CTF是唯一一种无监督的方法，它可以充分利用重复的测量方法，同时考虑到微生物组测序数据集的固有属性，即高维，稀疏性和组成性。在模拟数据集和实际数据集中，CTF均优于当前最新的Beta多样性指标。尽管CTF可以显示出强大的微生物特征，但在使用此工具时仍需要考虑几个方面。首先，CTF依赖于以下假设：基础数据的等级较低。可能会违反该假设，从而使CTF不适合使用，例如，当数据是由梯度而不是离散的分组驱动时（例如土壤数据集）。我们的CTF实施会估算基本排名，并在数据不满足此要求时通知用户。其次，CTF与其他Beta多样性指标一样，并未直接考虑可能影响下游聚类的混杂因素的存在，因此需要进行与补充图5所示相似的其他验证。最后，尽管CTF利用重复的措施来解释个体差异，并且在同步事件（例如治疗，饮食）的情况下是最佳的，它是置换不变的，并且不考虑纵向数据的顺序。

除了此处基准的纵向数据集外，CTF还可以用于空间重复测量。这包括同时收集样本的研究；例如，要测量多个身体部位（例如皮肤和唾液）或具有不同表型的部位（例如病变皮肤与相邻的非病变皮肤）。此外，CTF可用于分析个体差异较大的其他类型的数据，例如代谢组学或蛋白质组学。总之，CTF利用重复测量研究设计的功能来阐明生物学变化，同时考虑个体间的差异。我们建议将此工具用于现有数据集的重新分析以及未来微生物群落的研究。

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://m.sciencenet.cn/blog-3334560-1249024.html

上一篇：CSBJ综述：微生物组数据挖掘方法的挑战与机遇
下一篇：Microbiome：山大杜宗军团队揭示捕食性细菌新类群-慢生单胞菌目细菌独特的生境适应性

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

NBT：Rob Knight团队发表微生物组数据降维新方法

上下文感知的降维解卷积肠道微生物群落动态

摘要

正文

图1：CTF算法概述

图2：CTF在纵向计算机数据驱动的仿真中优于主流的距离度量

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

刘永鑫

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

NBT：Rob Knight团队发表微生物组数据降维新方法

上下文感知的降维解卷积肠道微生物群落动态

摘要

正文

图1：CTF算法概述

图2：CTF在纵向计算机数据驱动的仿真中优于主流的距离度量

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

刘永鑫

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)