科学网

 找回密码
  注册

tag 标签: 集成学习

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

说说“数据再分析”
timy 2010-10-6 14:29
近日看了缪其浩老师的博文( 果然假装没看见:兼谈数据再分析 ),感觉很好,转发一下,全文附后,并有一些感想,希望博友们能进行指正。 我对排名本身只是关注,主要是对缪老师说的数据再分析比较感兴趣。2006年还在读书,当时和我的同学魏博士在讨论期刊评价体系的问题,也想过与缪老师类似的方法,主要想法是:现在的期刊评价排行榜也是有不少的,如果自己设计一套新的指标,一是难度大,二是会不会被认可也是个大问题;而目前(指2006年的那个时候,当然现在还是)的评价方法或指标比较多(由此产生多种排行榜),能不能做一个系统融合或集成学习的方法,来综合目前的评价排行榜,得到更优的结果。据我回忆,当时浙大的叶鹰老师也在一篇博文中提到这个做法。我和魏博士都觉得这个工作可以做,不过后来由于数据采集的问题,就一直搁浅了。 回到数据再分析,这本身是个非常通用的方法,适用面很广。尤其是当今数据爆炸、应用信息系统较多的环境下,数据再分析可以发挥用武之地。如果从数据层面这个视角看的话,系统融合、集成学习等都可以看成数据再分析。比如: 机器翻译系统融合,从短语、句子、段落、篇章等层次粒度,将多个机器翻译系统的结果进行融合(或称重排序); 更早前说的元搜索引擎,将不同搜索引擎结果进行融合或重排序;机器学习领域的集成学习(包括数据或系统层面上的集成,名称很多,但基本思想类似),其实也是数据再分析。系统融合和集成学习中,有时候还会考虑到不同的系统(或元分类器、基分类器等)的权重问题,通常将它们的准确率作为权重。 在大学评价或期刊评价等问题上,系统融合、集成学习等数据再分析方法,现在应该是到了可以做些事情的时候了。不过,与基于系统融合的机器翻译系统或元搜索引擎等相比,不同评价系统融合中,它们的权重可能不太好弄,如果已经知道这些评价体系的正确性的话,那么一切都好办了。因为前者有相对大规模的评测数据,可以对不同的融合方法进行评价,但大学或期刊评价没有公开的、受到一致认可的评测数据,这就是 关键问题之一 。不过,这并不影响人们去进行方差估计,如果一个新的排行榜离平均情况差的太远,可能受争议就很大。当然,人类历史上,重大创造基本上是新的想法,也许将来,一个 新的、有颠覆性的 评价体系会出来。 再说到大学或期刊评价,现在不是没有测评数据吗,如果提高融合的准确率?我想,思路有两个:一个绕开这个问题,尽可能增加比较靠谱,但又有差异的基分类器数量;二是,依靠Web2.0的力量,能否发挥比较靠谱的网民的力量,根据他们的评价情况,得到他们心中的一个个排序,在这个基础上得到一个相对受认可的评测数据? 不过这两个想法,实施起来也很麻烦,比如怎么消除噪声、什么叫靠谱等?本身也是些难题。 再说下评价体系的本身, 另一个关键问题 是,如何选择合理的特征(或者说指标)。人类认识世界的水平不断进步的一个重要因素是,抓住了事物的主要特征,有了主要特征,很多事情就好办了。最近我与老师或朋友们经常讨论特征选择问题,有些人为什么看人很准,是不是他(她)扑捉事物特征的能力强于常人? 大学或期刊评价问题,受争议较多的主要是指标及其权重的问题,说明要么特征选择有问题,要么特征权有问题。所以,期待 新的、有颠覆性的 指标出来了。 最后附一篇以前的博文作为结尾: 评价不是伪科学 ( http://www.sciencenet.cn/m/user_content.aspx?id=28859 )。 附: 老树根新生涯原文: 果然假装没看见:兼谈数据再分析 果然假装没看见:兼谈数据再分析 我的博文关注大学排行榜主要还是从情报的角度,前篇 又一个大学排行榜 因为是沾了Intelligence Unit的边,后篇 再一个大学排名:上海沉没 ,主要是希望搞情报分析的适应不同数据作出分析、选择和判断。但是后篇中调侃似的提到上海的双雄复旦交大双双跌出前200,不知道上海的媒体将如何报道,还是假装没看见? 因为写了这句,于是在看报纸时多了一份心眼,半个月过去了果然不幸而言中,在前一个QS排行榜出来时《东方早报》出了很大版面(似乎两个整版,不打算浪费时间去查实了),那个榜上上海的两所大学的排名还说得过去;而《 泰晤士高等教育 》的那个版本显然很难看,所以《早报》也就只好没看见了;昨天(29日)《文汇报》发了位署名复旦某教师的文章,提到《 泰晤士高等教育 》的大学排名,但对复旦交大的名次只字未提。真是想象不到对这样只涉及一点小面子的东西上海媒体的反应居然也是如此不堪(赶紧补充,没有充分调查,只是看了几种,可能有遗漏)。不过媒体恐怕也有难处,据说现在报纸上只要涉及那些利益集团屁大一点的负面新闻,就会有有关部门上门问罪(最近就有个例子,其实一点不负面,只是说的高度可能不如该部门自己向上级领导吹嘘的),弄得大家只好骂骂没有背景的煤老板。 还有就是等待政府权威。前几年晚报上有位家长投书责备某个问题学校里的答案与书本上的不符,要兴师问罪,这倒也不奇怪;奇怪的随这篇报道的评论(该是专家或编辑)也煞有介事当什么大事情,呼吁有关政府部门出来管管,好象出来不同的观点和意见就会国将不国似的,要知道学生到社会上遇到所有事情哪有舆论一律的,难道不该学会面对不同观点,做分析做选择?教育者搞成这样,你还指望学生怎么样。 如果真对大学排行榜的方法感兴趣,可以看看以下这篇(注意其中为自己公司做广告的部分) http://science.thomsonreuters.com.cn/media/behinduniversityranking.pdf 。台湾交大一位作者对于方法的简要说明也可以一看。 http://blog.lib.nctu.edu.tw/nctunews/index.php?id=1496 还是回到本行。当然我更加关注的是对付各种说法不一的信息正是情报分析的功能之一。我在方法讲座里提到过对数据的二次分析和元分析( 情报分析方法讲座接近尾声 ),就可能是专门用来解决这个难题的工具,二者都不是原创(情报工作天生就难得有原创,所以难有什么地位),都是将实证研究或统计调查中收集到的数据重新拿来分析。其区别在于,二次分析(Secondary Analysis)是根据需要将不同数据集(比如人口统计和平均收入)放在一起重新分析;而元分析(Meta-analysis)则仅仅对相同问题在不同时间对象的数据集(对同一类数据,比如对人口老龄化与人均GDP之间关系,在不同时间段、不同国家的多次研究)重新分析(主要是用统计方法),知道元数据的容易理解这里的元意味着关于分析的分析,后者其实是从贝叶斯先验假设统计演变过来的,源自医学实验,举个最简单的例子比如药物试验的有效率,第一次做有效率84%,第二次78%,等等,等到做了若干次后平均达到80%,但是这个实验以后还要不断地做,再出来一个结果就要对先前的整个数据集一起重新计算,这就是二次分析的本原,当然实际应用时情况复杂得多。可能这也属于现在很时髦的寻证研究(Evidence-based Research)范畴。但是我讲情报分析时也强调,在情报工作中往往没有那么多数据,常常是半定量甚至定性的,叫二次分析基本上徒有虚名了,但是学习这个方法的思路对我们无法定量的分析也会有很大启发。我是在英国学习期间注意到有关数据再分析这个方法群,发现情报研究本质上就是信息再分析(注意我把数据改为信息),买了两本小册子,也做过些尝试,在 《探索者言》全文上网 中提到的那本文集里就有一个小小的例子 http://www.hyqb.sh.cn/book/1/27.html ,严格讲无法正式作为二次分析的应用案例,但是应该说分析的思路确实借鉴了这个方法。 回到大学排行榜,这本来可以成为一个信息再分析的案例,例如将同一年份不同的排行榜数据收集起来,同时尽可能详细地将各方的评价方法弄清楚(至少可以分成硬指标,统计数据,和软数据,口碑调查两个大类),说不定很有意思,比如复旦,它在两个排行榜的排名起伏很大,连 前面提到的那篇Thomson-Reuters文章都特地指出了复旦这个现象,就可能通过分析,对自己在学术界真正地位,以及其中折射出来的薄弱环节,得到一个有价值的分析。 当然这又是书生气的表现,对实际生活中的官僚来说,最有效的办法还是如唐骏在危机处理后期的聪明对策,即假装没看见而不屑一顾,不幸的是,事情真的如他们预料的,时间久了(不要多久,几个月足够了)社会就淡忘了,该干什么还干什么。