科学网

 找回密码
  注册

tag 标签: HITS

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

“忐忑”背后的计量学原理
热度 7 timy 2011-2-23 15:49
“忐忑”背后的计量学原理
最近被网民称为神曲的“ 忐忑 ”很火,被很多人翻唱,之所以这么火,搞传媒的、做复杂网络研究的,估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解,来解释一下“忐忑”是“真火”还是”假火”。 (1) “忐忑”(表示为A)被N个人(这里只一般意义上的人)传唱,也就是说A被N个对象引用,按照传统的文献计量方法,N越大,影响力越大; (2) 显然(1)有不合理的地方,存在虚假引用的情况,比如网络推手的恶意传播,某些娱乐节目的短信投票环节也存在这个问题,那么,就对(1)中的N个引用对象进行区分,某些娱乐节目的做法是请几个“大腕”来打分,他(她)的权重很高,一般人的投票权重很低,然后综合一下得分,从而得到最终排名; (3) 显然(2)中,请的“大腕”是什么人,这个很重要。是不是公认的权威,这是值得商榷的,比如请其他行业的人来评价某一行业的对象,是否合适?那么有没有比较好的方法呢,文献计量学里就有一个很好的方法,就是依靠引文来解决,发展到后来信息检索领域的经典的 PageRank算法 、 HITS算法 ,是度量引用对象权威程度的公认的好办法,这些方法能综合考虑引用和被引用对象之间的关系,能得到比较可信的权威度(当然,也有在PageRank上作弊的方法,研究人员也想出了很多对策进行“反作弊”)。让我们来继续看A,由于N个引用对象中,有王菲、梁静茹、郭德纲、杜汶泽等M(MN)个大腕来“引用”,通过PageRank、HITS等算法,计算得到这M个大腕本身的权重或者权威度都比较高,因此通过PageRank、HITS等算法,最终A的得分自然就高; (4) (3)中用PageRank,HITS算权威度需要很多数据,太麻烦了,有没有比较简单的方法呢? 有的,可以利用各大网站的排行榜,综合一下,也能得到大差不差的结果,单纯靠作弊成“大腕”的可能在一两个网站是可能的,但综合多个网站的排行榜的结果(排除转载的情况),一般可以过滤他(她)们,这个做法类似于综合利用多个大学排行榜,得到一个综合值,从而得到相对可信的排名。 (5) 其他问题,比如是否可以借用“文献半衰期”等方法,来预测下A能火多久等等问题,那就需要更多的数据来做分析了。 (注: 该图由博主制作,带头像的小图均来自于Google图像搜索结果) 以上仅供参考,欢迎讨论。
个人分类: 科学评论|4794 次阅读|18 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 23:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部