zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

SifiNet:识别特征基因集和注释细胞

已有 580 次阅读 2024-5-17 09:02 |个人分类:科普|系统分类:科普集锦

SifiNet:识别特征基因集和注释细胞

单细胞测序技术,包括单细胞RNA测序(scRNA-seq)和单细胞ATAC测序(scATAC-seq),使研究人员能够量化细胞组学表型。理想的单细胞数据分析有望帮助研究人员了解细胞组学异质性,提取感兴趣的细胞亚群,识别响应细胞亚群的特征基因集,以及揭示细胞亚群之间的关系。

在这些分析任务中,识别特征基因集是至关重要的一步。特征基因集被定义为细胞亚群之间差异表达的基因集。它们通常用于注释细胞亚群和执行基因集富集分析。现有的特征基因鉴定方法通常采用两步法:首先对细胞进行聚类(Seurat,简单的LouvainCIDRImputation and Dimensionality Reduction)聚类和SCANPY)然后跨细胞集群进行差异表达基因(DEG)分析(DESeq2edgeRlimmalimma- voomMAST),以确定集群特异性特征基因。然而,这种方法对于具有复杂或微妙异质性的数据的准确性存在疑问,因为不准确的初始聚类步骤可能导致随后错误的特征基因识别。或者,一些方法通过检测高度可变基因(HVG)来识别特征基因,这些基因基于模型拟合偏差、缺失率和UMI计数分布而与总体的偏差。然而,这些方法不能将特征基因分离为亚种群特异性基因集,限制了它们对细胞注释的效用。

为了克服现有方法的局限性,Gao等人提出了SifiNet(图1https://github.com/jichunxie/sifinet),这是一种直接识别特征基因集的独特方法,消除了先前细胞聚类的需要。源于一个重要的观察,即在一个细胞亚群内共差异表达的基因也表现出共表达模式。SifiNet建立了一个基因共表达网络,并检查其拓扑结构来识别特征基因集。这些基因集用于计算细胞基因集富集分数并随后注释细胞。此外,这些基因集之间的网络暗示了细胞亚群之间的关系。此外,SifiNet可以选择性地整合scATAC-seq数据,因为它形成了一个基因共开放染色质网络,并探索其拓扑结构以确定表观基因组特征基因集。SifiNet分析scRNA-seqscATAC-seq数据的能力使研究人员能够深入了解细胞多组学异质性。

image.png

1 SifiNet管道。SifiNet以预处理后的特征计数矩阵为输入,利用基因共表达网络拓扑识别特征基因集(功能1)。识别出的特征基因集用于标注细胞(功能2),基因共表达网络还用于揭示细胞亚群的过渡或发展关系(功能3)。经过对分位数关联的多次测试和去除有问题的低读数基因,SifiNet获得了一个大的基因共表达网络。然后,基于一阶、二阶和三阶连接,SifiNet识别标记为红色节点的特征基因。然后,SifiNet将重点放在特征基因之间的正相关表达网络及其节点拓扑上,识别核心特征基因,标记为蓝色节点;非核心特征用黄色标记。接下来,SifiNet将核心特征基因聚类到不同的聚类中,然后将非核心特征基因和多角色特征基因分配到相应的聚类中。最后,SifiNet获得多个特征基因集。

SifiNet在识别特征基因集和提高细胞注释准确性方面优于现有的两步方法和HVG方法。此外,SifiNet可以识别细胞之间的复杂异质性,并揭示细胞亚群之间潜在的发育谱系。SifiNet还可以扩展以分析包含数百万细胞的数据集。将SifiNet应用于5个已发表的实验数据集,并发现了一些潜在的新发现,如潜在的新细胞周期标记物和衰老标记物、富含衰老细胞的亚群、骨髓祖细胞的发育谱系、CD8细胞亚群及其可能的转变路径。

参考文献

[1] Gao Q, Ji Z, Wang L, et al. SifiNet: a robust and accurate method to identify feature gene sets and annotate cells. Nucleic Acids Res. Published online April 22, 2024. doi:10.1093/nar/gkae307

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://m.sciencenet.cn/blog-571917-1434456.html

上一篇:单细胞测序数据分析技巧和未来计划
下一篇:评估单细胞测序数据插值方法

2 张忆文 宁利中

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-15 13:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部