BlueGemini分享 http://blog.sciencenet.cn/u/BlueGemini

博文

评论《数据挖掘的三个挑战》

已有 6780 次阅读 2010-12-15 20:58 |个人分类:数据挖掘|系统分类:观点评述|关键词:学者| 社会网络, 转移学习, 移动环境

   今天,实验的老师上传了香港大学的计算机学院教授在中国计算机前沿发表的《Three challenges in data mining》,读后对目前的数据挖掘领域的一些前沿技术有了些体会。下面就随便聊下这篇文章。

    文章主要讲了三个部分:转移学习,社会网络和移动环境学习。大家知道现今的机器学习领域,性能较好使用的较多的大多是监督和半监督的算法,这就涉及到需要大量标注的训练集。但是现实是,当涉及某个新领域的新任务时,并没有大量的标注的训练集,这就严重制约了新领域新任务的机器学习。怎么解决这个问题呢,大家提出了转移学习的概念,所谓转移学习就是利用和任务领域相关领域的大量已标注的训练集,结合现今领域少量的标注训练集对新领域的学习模型进行训练,以此期望改善新领域的学习模型的效果。转移学习的用处很多,只要是该领域的训练集较少,都可以采用这种方法。当然也可以用在希望通过相关领域训练集共用,然后让几个领域的任务的性能都能得到提高。该文中举了两个例子,一个是无线Wiki获取使用者位置信息预测的问题,具体也没有搞的很懂,但是主要是将不同设备的训练集共用,然后达到共同提高。第二个例子提到的是生物信息学领域的应用,因为生物数据需要大量实验才能达到,需要很大的代价,所以怎样共用各个领域已经标注的实验数据,就变得很有价值。

      由于个人是做情感分析,所以这里就重点摆一摆情感分析的应用,大家都知道最早提出情感分析的那几个牛人都是在电影评论集上的实验,而且他们也提供了标注数据集,当然其他领域也有很多标注数据。假如我想做网上书店评论的情感分析,这里由于书和电影有很多相关的地方,这里可以尝试一下使用标注的电影评论集来对书店评论的分类模型进行训练,来提高精度。又假如,我目前的任务是做网络舆情分析中的情感分析研究,大家知道网络舆情分析的对象是论坛,论坛都是跨主题的,也就说它和每个领域都相关,但是又没有已经标注的训练集,所以如果利用现有的标注训练集来训练论坛评论情感分类模型,是个值得研究的方向。该文中也提供了篇有关情感分析的论文,已经加到了附件中。

      文章的第二部分讲述了社会网络中的CF(协同过滤)和链接预测问题,这两个问题都和个性化推荐系统有关。目前提出的主要问题是稀疏网络的问题,有时候节点之间的链接很少。在新的领域中,初始链接也是很少的几乎没有,这样就无法进行推荐,这就是所谓的“冷启动”问题,有人提出了用转移学习的方法去解决冷启动问题,有人提出用标签的方式等等。大的网站如google和Amazon拥有大量的用户,不存在稀疏网络的问题,但是目前有很多中小型网站存在这样的问题,怎样利用这么多网站已有的数据,整合起来进行链接预测和协同过滤,是我们需要努力的方向。

      文章第三部分提出了一个有别于传统机器学习的领域:基于移动平台和环境相关的机器学习。主要是想开发基于移动平台如手机等的应用:商店推荐、慢性疾病监测等,希望结合用户所处的环境:地理位置,天气状况,身体状况,运动轨迹等等因素,这就需要大量的传感器去采集数据,这是硬件上的问题。软件上的问题就是噪声(低质量)数据较多,个人的所能提供的信息依然有限,这就需要我们整合更多人的信息来进行模型的学习。

     总体来说,启发很大,然我以后的研究中多了些解决思路。第一部分的转移学习是通用的方法论,可以应用到很多机器学习和数据挖掘的领域。第二部分和第三部分都是和应用相关的,作者提出了很多新颖的应用方向和解决思路,也让我眼界大开。说起又想起了作者的单位,香港大学,感叹呀!今天看到了科学网上的新闻,IEEE全球52个华人会士,大陆地区才两个清华一个,华科一个(没想到华科那么牛),但是还不如香港和台湾,感叹呀,你说比不过米国就算了,小弟也比不过,有点打击人。努力学习呀,争取以后不给中国人丢脸!

情感分析中的转移学习情感分析中的转移学习2情感分析中的转移学习3

https://m.sciencenet.cn/blog-516696-393925.html

上一篇:2010 COLING最佳论文决赛名单和最终获奖者
下一篇:评论《竖起拇指?使用机器学习技术进行情感分析》

7 武夷山 章成志 陈绥阳 许培扬 唐常杰 罗汉江 宋敦江

发表评论 评论 (9 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 11:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部