科学网 › 标签 › HITS

标签: HITS

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

“忐忑”背后的计量学原理: 热度 7 timy 2011-2-23 15:49; 最近被网民称为神曲的“ 忐忑 ”很火，被很多人翻唱，之所以这么火，搞传媒的、做复杂网络研究的，估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解，来解释一下“忐忑”是“真火”还是”假火”。（1） “忐忑”（表示为A)被N个人（这里只一般意义上的人）传唱，也就是说A被N个对象引用，按照传统的文献计量方法，N越大，影响力越大；（2）显然（1）有不合理的地方，存在虚假引用的情况，比如网络推手的恶意传播，某些娱乐节目的短信投票环节也存在这个问题，那么，就对（1）中的N个引用对象进行区分，某些娱乐节目的做法是请几个“大腕”来打分，他（她）的权重很高，一般人的投票权重很低，然后综合一下得分，从而得到最终排名；（3）显然（2）中，请的“大腕”是什么人，这个很重要。是不是公认的权威，这是值得商榷的，比如请其他行业的人来评价某一行业的对象，是否合适？那么有没有比较好的方法呢，文献计量学里就有一个很好的方法，就是依靠引文来解决，发展到后来信息检索领域的经典的 PageRank算法、 HITS算法，是度量引用对象权威程度的公认的好办法，这些方法能综合考虑引用和被引用对象之间的关系，能得到比较可信的权威度（当然，也有在PageRank上作弊的方法，研究人员也想出了很多对策进行“反作弊”）。让我们来继续看A，由于N个引用对象中，有王菲、梁静茹、郭德纲、杜汶泽等M（MN)个大腕来“引用”，通过PageRank、HITS等算法，计算得到这M个大腕本身的权重或者权威度都比较高，因此通过PageRank、HITS等算法，最终A的得分自然就高；（4）（3）中用PageRank，HITS算权威度需要很多数据，太麻烦了，有没有比较简单的方法呢？有的，可以利用各大网站的排行榜，综合一下，也能得到大差不差的结果，单纯靠作弊成“大腕”的可能在一两个网站是可能的，但综合多个网站的排行榜的结果（排除转载的情况），一般可以过滤他（她）们，这个做法类似于综合利用多个大学排行榜，得到一个综合值，从而得到相对可信的排名。（5）其他问题，比如是否可以借用“文献半衰期”等方法，来预测下A能火多久等等问题，那就需要更多的数据来做分析了。（注: 该图由博主制作，带头像的小图均来自于Google图像搜索结果）以上仅供参考，欢迎讨论。; 个人分类: 科学评论|4794 次阅读|18 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: HITS

相关帖子

相关日志

关闭安全验证