科学网

 找回密码
  注册

tag 标签: 二值矩阵分解模型

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

寻找致癌基因: 基因表达数据的双聚类
shamolvzhou79 2011-11-15 19:28
基于基因表达数据寻找致癌基因 , 尝试癌症的早期诊断和基因治疗是系统生物学领域的一个经典问题 . 实际上 , 许多基因仅仅是在某些类型的肿瘤中异常表达 ( 高表达或者低表达 ), 而在其它类型的肿瘤疾病中不异常表达 , 因此探测基因 - 肿瘤的高度相关结构对于癌症病理学的研究有重要意义 . 数据挖掘领域中的双聚类问题就是据此抽象出来的 ( ). 我们提出了一种新的双聚类模型 --- 二值矩阵分解模型 (binary matrix factorization, BMF). 我们将 BMF 应用于基因表达数据中来寻找在特定肿瘤中异常表达的基因 , 取得了极好的结果 : 我们的肿瘤诊断正确率提高了十五个百分点左右 , 而寻找的特异表达基因占总数百分比下降了五十个百分点左右 ( 这意味着通过更少的基因我们就更好地诊断了肿瘤 , 说明找到的基因更具特异性 , 并且在未来应用中可以更经济 ). 简单来说 , 我们有三个方面的工作值得一提 : 1. 在理论方面,给出了界值性质,该性质 揭示了两类最流行的矩阵分解模型:非负矩阵分解模型和主成分分析模型 ( 奇异值分解 ) 之间的区别。非负矩阵分解 是聚类分析领域中的一项新技术,其 与奇异值分解的一个最显著不同在于非负矩阵分解有非负性的约束,但是该约束的本质含义是什么,一直以来还缺乏理论上的研究,我们给出的界值性质在很大程度上解决了这一问题 ; 2. 在算法方面,为二值矩阵分解模型设计了两种算法,即罚函数方法和阈值方法,并对它们的数值表现进行了系统比较,阐明了它们各自适用的情况 ; 3. 在应用方面,我们 将 二值矩阵分解模型 成功地应用于基因表 达数据的双聚类分析,结果表明, 该模型与同类模型相比,提高计算精度十五个百分点以上 ( 作为参照,我们的结果还和聚类模型 nsNMF, NMF/R 进行了比较,结果也是我们的模型计算结果最好,而且 nsNMF 和 NMF/R 不能给出精确的双聚类结构 ) ,提高了结果的稀疏化水平约二十到五十五个百分点 ( 依数据而定 ) , 统计学分析表明我们给出的计算结果具有生物显著性 . 二值矩阵分解模型作为聚类分析领域中的新模型,其在文本挖掘、观点分析、股票市场走势分析等领域都有广阔的应用前景。 文章地址 : http://www.springerlink.com/content/y62142r517762595/?p=63070935b51d4d4aaef31c7a3378841epi=4 Cheng Y, Church G (2000) Biclustering of expression data. In: Proceedings of the 8th international conference on intelligent systems for molecular biology: 93 – 103
5995 次阅读|0 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 04:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部