博文

bmediatR：介导分析的贝叶斯模型选择方法

已有 1009 次阅读 2023-8-21 12:13 |个人分类:科普|系统分类:科普集锦

bmediatR：介导分析的贝叶斯模型选择方法

介导分析试图通过确定中间变量（M）是否（至少部分）解释因变量（Y）对自变量（X）变化的反应来理解因果过程。尽管介导分析的因果解释受制于许多假设，但它在社会科学和自然科学中都得到了广泛应用。在生物医学背景下，介导分析已被用于研究基因表达如何介导遗传变异对复杂表型和疾病的影响。它已被用于推断生物分子表型之间的因果关系，如转录物、染色质状态和蛋白质。在模式生物和人类细胞系中介导生物分子表型的遗传关联，主要包括基因表达、蛋白质丰度和染色质可及性，本次介绍的介导方法bmediatR广泛适用。

介导分析要求X、M和Y在相同的个体中进行测量（图1），其因果解释依赖于仅基于数据无法验证的假设。特别是，它假设因果效应的方向是从X到Y（X->Y），称为X对Y的直接影响，从X到M到Y（X->M->Y），也称为X对Y的间接影响。它还假设这些关系不受未观察到的混淆因子的影响，观察到的混杂因素是有条件的，并且观察到的M到Y的混杂因素不依赖于X。如果这些假设得到满足，因果介导的证据就在于间接效应的大小。如果这个间接效应是非零的，那么M是X在Y上的介导。此外，如果M是介导并且直接效应是零，则M是X对Y的完全介导，而如果直接效应是非零时，则M为X对Y上的部分介导。我们的目标是评估完全或部分介导的证据，包括X包含一个以上自变量的情况。

图1 X、M和Y之间可能的关系。假设X是外生的，因此M和Y对X没有影响。根据指标变量θ，模型和相应的边际似然（ML）由三条边a、b和c中任何一条的存在或不存在来定义。默认情况下，在bmediatR中，假设边b的方向是从M到Y（M->Y），但也可以容纳一组反应模型，其中边b的指向相反（M<-Y），用θ=（θ_a, *, θ_c）。可以通过调整模型先验来支持甚至排除模型。默认情况下，有五个模型（ML1-3和ML5-6）代表非介导，即X对Y的影响（如果存在）不是通过M来中介的。共局部模型（ML7）代表一种特殊情况，其中X和Y之间没有中介，但X独立地影响M和Y。完全中介模型（ML4）和部分中介模型（ML 8）表示X对Y的影响完全或部分由X对M的影响来解释的情况

定量性状基因座（QTL）定位，其中感兴趣的性状Y（例如蛋白质丰度）与矩阵X中表示的遗传变异相关，矩阵X可以编码多个变体或多状态单倍型。特别是，我们感兴趣的是评估一个或多个候选变量M是否可以介导遗传基质和性状之间的关系。例如，候选介质M可能是在Y的QTL附近编码的基因的蛋白质丰度。在这种情况下，可以合理地假设因果效应的方向是X->M->Y。进一步假设这些关系不存在无法解释的混淆。在满足介导假设的情况下，目标有两个：1）评估有利于M成为因果介导的证据，2）确定介导是部分的还是完全的，因为X包含复杂的遗传信息。

当存在许多候选介导并且X是矩阵时，传统的介导分析方法不适合检测介导和区分完全介导和部分介导的双重目标。Baron和Kenny介绍了一种建立介导的经典方法。这种方法被称为因果步骤（CS）方法，通过顺序测试X、M和Y之间的关系来建立部分或完全介导的证据。具体而言，CS使用线性回归模型来建立以下四个条件：1）X对Y[X->Y]有边际影响；2）X对M[X->M]有影响；3）M是X对Y[M->Y|X]的作用的至少部分介体；4）M是X对Y[X⫫Y|M]作用的完全介体。CS方法可以通过对分组预测因子使用似然比检验来适应自变量矩阵。尽管CS方法由于其概念上的可访问性而很有用，但在具有许多候选介质的基因组学环境中实施它可能会很尴尬。特别是，在考虑多个测试的同时，组合各个步骤的统计数据并不简单，特别是对于步骤（4），它需要拒绝无效假设。这使得很难简洁地总结出对许多候选M进行完全或部分介导的证据。

介导分析的其他常见测试通过提供间接效应显著性的单一测试统计数据来解决CS方法的问题。间接效应被正式地给出为来自X->M和M->Y|X的回归系数的乘积，即M对Y的影响控制了X的影响。确定该系数乘积为非零为（至少）部分介导提供了证据，但它没有提供关于完全中介的信息。测试间接效应的最常用方法包括Sobel检验，该检验基于对间接效应的渐近分布的近似；或者，自展法可以用于评估显著性，它不进行分布假设，但计算成本很高。除了不提供关于完全介导的信息外，当X是矩阵时，Sobel测试也不会泛化。

介导分析在大规模遗传和分子图谱数据中的应用已经使用了上述传统测试的修改版本。CS的近似值已用于多亲本协作杂交（CC）和多样性爆发小鼠种群（DO）。这些研究确定了基因表达（eQTL）、蛋白质丰度（pQTL）和染色质可及性（cQTL）的QTL。对目标表型（Y）的显著QTL的检测满足步骤（1），并且对分子性状（M）局部的QTL，即在M的基因组位置附近的QTL的探测满足步骤（2）。对于给定的表型QTL，通过测试X对Y的影响来进行介导扫描，因为X是通过每个M（例如，每个观察到的基因转录物）介导的。对于CS的近似值，基于在考虑M的影响之前和之后的对数比值（LOD）分数的降低来确定重要介导因子。这近似于步骤（4），而不需要X和Y之间的完全独立性。值得注意的是，LOD丢弃方法不直接检查步骤（3），因此，它可以检测到与真正介导相关但没有介导X对Y的影响的候选者。因此，在解释LOD丢弃介导时需要小心。

遗传和分子图谱数据大规模介导的最新方法学发展包括多SNP交叉并集检验，这是CS方法的一个扩展，通过将多个遗传预测因子表示为基于相似矩阵（即基于核的）随机效应来同时对其进行建模，以及分群复合零检验（联合显著性检验的扩展），通过利用经验零分布来提高相对于Sobel和联合显著性测试的功率。与其他基于间接效应的方法一样，这两种方法都没有提供区分部分介导和完全介导的推论。

工具变量（IV）分析是一种密切相关但不同的因果推断方法，虽然依赖于其自身的强大假设，但对混杂变量的存在比介导更具鲁棒性。在遗传学研究中通常被称为孟德尔随机化（MR），它使用工具变量对M和Y的推断因果效应来测试从M到Y的因果效应。MR方法仍然是一个活跃的发展领域。重要的是，它假设X对Y没有直接影响，即所有中间体都是完全的介导；这一强有力的假设使MR能够避免CS步骤（3）（M->Y|X）的潜在陷阱，该步骤在存在混杂变量的情况下可能产生错误的介导。尽管如此，尽管对混杂是稳健的，但X对Y没有直接影响的假设可能会使MR不太适合某些应用，包括最初检测到X和Y之间的边际关联而进行的分析。

上述所有方法都依赖于假设检验，其中显著性标准用于在嵌套的替代模型之间进行选择。在作者们看来，贝叶斯模型选择为介导分析提供了一个更自然的视角。具体来说，介导分析的目标是将X、M和Y之间的关系分类为一个特定的因果模型。这涉及到克服几个挑战：一组潜在的因果模型不是嵌套的；对具有有限数据的特定因果模型的分类必然是不确定的；并且当模型不确定时对参数的估计理想地需要将模型不确定性合并到估计中。贝叶斯模型选择范式连贯地解决了这些挑战，该范式考虑一组潜在模型（嵌套或其他），并为每个模型分配后验概率。

贝叶斯方法已用于介导分析，以估计间接效应的后验分布，贝叶斯模型选择已用于测试间接效应的存在。在这里，Crouse等人开发了一种贝叶斯模型选择方法bmediatR，该方法考虑用户指定的一组因果模型，能够区分完全介导、部分介导、X和M对Y的独立影响。后者在遗传研究中尤为重要，因为遗传效应的偶然共定位可能被误解为因果关联。在这种情况下，介导可以被视为具有遗传锚的因果网络分析（也称为贝叶斯网络）的小规模、有针对性的版本，而推断此类网络的贝叶斯方法通常具有高度计算密集性。通过关注介导和使用共轭先验，贝叶斯模型选择方法避免了计算后验归集的昂贵采样技术。bmediatR方法在计算上是有效的，它提供了后验模型概率的信息归集。

bmediatR方法可以从https://github.com/wesleycrouse/bmediatR中免费获得。

参考文献

[1] Crouse WL, Keele GR, Gastonguay MS, Churchill GA, Valdar W. A Bayesian model selection approach to mediation analysis. PLoS Genet. 2022 May 9;18(5):e1010184. doi: 10.1371/journal.pgen.1010184.

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC