zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

MultiVI:多模态数据集成的深度生成模型

已有 1396 次阅读 2023-8-16 09:49 |个人分类:科普|系统分类:科普集锦

MultiVI:多模态数据集成的深度生成模型 

以单细胞分辨率分析转录和染色质可及性景观技术的出现对细胞类型和状态的编目至关重要。然而,单细胞RNA测序(scRNA-seq)和转座酶可及染色质测序的单细胞测定(scATAC-seq)的大多数用途都受到限制,使得给定的细胞只能通过一种技术进行分析。最近,出现了多模态单细胞方案,用于同时分析基因表达、染色质可及性,以及同一细胞中表面蛋白的丰度。这种伴随的测量能够对细胞状态进行更精细的分类,并最终更好地理解其多样性的机制。 

新兴的多模态分析领域受益于新的统计方法,这些方法在一系列分析任务中联合考虑了多种数据类型。然而,多模态分析的另一个有前景的应用是改进分析和解释更常见、成本更低的单模态数据集(例如scRNA-seq)的方式。通过利用具有多模态(配对)信息的数据集,可以推断出缺失模态的属性,从而获得难以实现的新见解。为了提供一个全面的解决方案,这种综合分析应该在两个层面上进行。首先,它应该生成每个细胞状态的低维摘要,反映所有输入分子类型,而不管哪种类型的信息可用于该特定细胞。正如在单细胞基因组学的其他应用中通常所做的那样,这种表示可以促进亚群或梯度的识别,并实现更具信息性的数据可视化。第二级分析应生成每个高维数据类型(例如,每个染色质区域的可访问性)的标准化、批次校正视图,无论是观察到的还是推断出的。这样的分析可以更广泛地识别表征感兴趣的细胞亚群的分子特征。 

Ashuach等人介绍了一种新工具MultiVI(图1),这是一种用于多模态数据集概率分析的深度生成模型,它能够与单模态数据集集成。将基因表达和染色质可及性作为主要案例研究,作者们证明MultiVI为两个层次的分析提供了解决方案,即细胞状态的低维总结和每个细胞中两种模式(测量或推断)的标准化高维视图。MultiVI旨在说明单细胞基因组学数据的一般注意事项,即批次效应、相同模式的不同技术、测序深度的可变性、有限的灵敏度和噪声。它在明确建模每种模态的统计特性同时,处理scRNA-seq信号的离散性和scATAC-seq信号的二元性。MultiVI设计的一个关键部分是其模块化,这允许包含额外的数据模式。通过添加带有标记抗体的表面蛋白表达作为第三种模式来证明这一点,扩展模型考虑了蛋白质数据的特性(例如,非零背景成分),并能够与单一模态(仅RNA、染色质或蛋白质)数据集进行集成和联合分析。 

image.png

1概念模型说明,其中输入数据(顶部)由染色质可及性(ATAC)、基因表达(RNA)或两种数据类型(多组)组成。变量S表示实验协变量,例如批次或实验条件。每个数据模态被编码为模态独立的潜在表示(使用神经网络编码器),然后,这些表示被合并到联合潜在空间中。联合潜在表示用于估计(解码)输入数据以及染色质区域特异性效应、基因特异性分散度、细胞特异性效应、可及性概率估计值和平均基因表达值。 

最近的一种方法(Cobolt)提出了一种类似于MultiVI的方法,结果很有希望。正如要展示的那样,MultiVI为跨模态、研究和技术的信息集成和解释提供了一个更全面的解决方案。除了展示其推导精确低维表示的能力外,还展示了作为一种高维信号输入方式的特性。首先,证明MultiVI提供了估算值不确定性的校准估计(例如,仅scRNA-seq细胞的染色质可及性预测和仅scATAC-seq细胞的基因表达预测),因此不太准确的预测也不太可靠。其次,证明这些不确定性的估计可以准确估计细胞中的差异基因表达或染色质可及性,而这些细胞的相应模式不可用。第三,即使细胞群体仅具有来自一种模态的信息,当相关群体的多模态信息可用时,仍然可以实现准确的插补(从而有效地执行样本外预测)。MultiVI作为一个持续支持的开源软件包,相关详细的文档和使用教程可通过https://docs.scvi-tools.org/获取。 

参考文献

[1] Ashuach T, Gabitto MI, Koodli RV, Saldi GA, Jordan MI, Yosef N. MultiVI: deep generative model for the integration of multimodal data. Nat Methods. 2023 Jun 29. doi: 10.1038/s41592-023-01909-9.  

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

 

image.png




https://m.sciencenet.cn/blog-571917-1399217.html

上一篇:推断人类神经发生过程中细胞类型特异性因果基因调控网络
下一篇:scMTNI:从单细胞组数据集推断细胞谱系上的细胞类型特异性基因调控网络

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 05:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部