Mining Features for Biomedical Data using Clustering Tree Ensembles. Pliakos K , Vens C . J Biomed Inform. 2018 Jul 13 ; 可以供给 机器学习界利用的生物医学数据量增长非常迅速,随之带来一个问题:这些数据实际上能提供多少信息的?或者描述数据实例的特征有多大的区分度?一些生物医学数据集受到实例的表示上缺乏差异,更有甚者,有些数据集里还有具有相同特征和不同类标签的实例存在。毫无疑问,这直接影响机器学习算法的性能,以及解释其结果的能力。本文聚焦于上述问题,并提出一种基于树集合学习( tree ensemble learning )的目标通知特征归纳( target-informed feature induction )方法。该方法为数据表示带来更多变化,从而可能增加应用于特征归纳的学习机的预测性能。本文有双重作用:首先,强调了影响生物医学数据质量的问题;其次,提出了一种处理该问题的方法。所提出的方法的效率在多目标预测任务上得到验证。结果表明,所提出的方法能够增强数据实例之间的区分并提高预测性能。 DOI: 10.1016/j.jbi.2018.07.012 PMID: 30012356