科学网

 找回密码
  注册

tag 标签: 表示学习

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

SCRL:单细胞转录组数据的表示学习
热度 3 jgu 2017-8-19 23:55
SCRL :单细胞转录组数据的表示学习 单细胞转录组数据为我们进行细胞异质性的研究提供了强有力的工具,在处理这样一个高维的数据时,一个常用的策略是将这些细胞投影到低维的空间上。但是,与传统的 转录组测序相比,单细胞测序技术噪声很大,使得单细胞转录组数据包含大量的 dropout 事件(导致基因表达量为 0 或接近 0 ),即使是一些标记( marker )基因也有可能表达量很低。这样,一些传统的降维方法(比如在单细胞转录组数据分析中常常用到的 PCA , t-SNE )就面临着巨大的挑战。为了克服这个问题,我们提出了一个基于网络嵌入( network embedding )的表示学习方法 SCRL (见下图 ),通过数据驱动的非线性映射和引进先验知识(比如 pathway information )来对细胞和基因学习一个更有意义的低维表示。同时 SCRL 对于异质性数据的整合提供了一种新思路。实验表明 SCRL 在多组近期的单细胞转录组数据上都表现卓越。 首先,我们从非监督学习 ( 可视化 / 聚类 ) 的角度出发 ,在三个数据集上进行了 SCRL 与 PCA, t-SNE, ZIFA 的性能比较,可视化结果(见下图 )表明 SCRL 具有显著优势,特别是在 Guo Petropoulos 数据集上。为了量化我们的实验结果,我们进一步计算了类内类间距离比( WB-ratio ),其结果 与可视化结果一致。 然后,我们从监督学习 ( 分类 ) 的角度出发,利用 bootstrap 的方法将数据分为训练集和测试集,在训练集上用不同的方法训练模型,并在测试集上计算正确率,结果(见下图 )表明 SCRL 在 Guo Petropoulos 数据集上具有显著优势,并且引入先验信息的分类正确率比不引入先验的分类正确率要高。在 Pollen 数据集上与其它方法效果相当。 同时,我们在 Guo 数据集上利用我们对细胞和基因学习到的低维表示里找与不同的细胞类型对应的显著的 pathway ,结果与预期相符。 此外,我们对 PCA, t-SNE, ZIFA 和 SCRL 在计算时间上进行比较,结果 表明 SCRL 在大数据集上具有显著优势。 此项工作由清华大学古槿、张奇伟课题组联合完成,第一作者是清华大学自动化系博士生李翔宇,已被牛津出版社旗下著名期刊 Nucleic Acids Research (影响影子 10.162 )接收。 X. Li, W.Chen, Y. Chen, X. Zhang, J. Gu* and M. Zhang*. Networkembedding basedrepresentation learning for single cell RNA-seq data. Nucleic Acids Research 2017, Advanced Access. https://doi.org/10.1093/nar/gkx750
10949 次阅读|3 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 17:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部