博文

“忐忑”背后的计量学原理

已有 4792 次阅读 2011-2-23 15:49 |个人分类:科学评论|系统分类:生活其它|关键词:学者| 忐忑, 文献计量学, PageRank, HITS

最近被网民称为神曲的“忐忑”很火，被很多人翻唱，之所以这么火，搞传媒的、做复杂网络研究的，估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解，来解释一下“忐忑”是“真火”还是”假火”。

（1） “忐忑”（表示为A)被N个人（这里只一般意义上的人）传唱，也就是说A被N个对象引用，按照传统的文献计量方法，N越大，影响力越大；

（2）显然（1）有不合理的地方，存在虚假引用的情况，比如网络推手的恶意传播，某些娱乐节目的短信投票环节也存在这个问题，那么，就对（1）中的N个引用对象进行区分，某些娱乐节目的做法是请几个“大腕”来打分，他（她）的权重很高，一般人的投票权重很低，然后综合一下得分，从而得到最终排名；

（3）显然（2）中，请的“大腕”是什么人，这个很重要。是不是公认的权威，这是值得商榷的，比如请其他行业的人来评价某一行业的对象，是否合适？那么有没有比较好的方法呢，文献计量学里就有一个很好的方法，就是依靠引文来解决，发展到后来信息检索领域的经典的PageRank算法、HITS算法，是度量引用对象权威程度的公认的好办法，这些方法能综合考虑引用和被引用对象之间的关系，能得到比较可信的权威度（当然，也有在PageRank上作弊的方法，研究人员也想出了很多对策进行“反作弊”）。让我们来继续看A，由于N个引用对象中，有王菲、梁静茹、郭德纲、杜汶泽等M（M<N)个大腕来“引用”，通过PageRank、HITS等算法，计算得到这M个大腕本身的权重或者权威度都比较高，因此通过PageRank、HITS等算法，最终A的得分自然就高；

（4）（3）中用PageRank，HITS算权威度需要很多数据，太麻烦了，有没有比较简单的方法呢？有的，可以利用各大网站的排行榜，综合一下，也能得到大差不差的结果，单纯靠作弊成“大腕”的可能在一两个网站是可能的，但综合多个网站的排行榜的结果（排除转载的情况），一般可以过滤他（她）们，这个做法类似于综合利用多个大学排行榜，得到一个综合值，从而得到相对可信的排名。

（5）其他问题，比如是否可以借用“文献半衰期”等方法，来预测下A能火多久等等问题，那就需要更多的数据来做分析了。

（注: 该图由博主制作，带头像的小图均来自于Google图像搜索结果）

以上仅供参考，欢迎讨论。

转载本文请联系原作者获取授权，同时请注明本文来自章成志科学网博客。
链接地址：https://m.sciencenet.cn/blog-36782-415834.html

上一篇：新书介绍：Modern Information Retrieval (Second Edition)
下一篇：引擎清洗

收藏分享

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

“忐忑”背后的计量学原理

当前推荐数：16 推荐人：陈辉 马峥 李斌 何学锋 武夷山 许培扬 俞立平 罗汉江 宁佳 吉宗祥 刘耀 贺天伟 化柏林 王启云 贡金涛 苏金燕

发表评论评论 (18 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

“忐忑”背后的计量学原理

当前推荐数：16 推荐人： 陈辉 马峥 李斌 何学锋 武夷山 许培扬 俞立平 罗汉江 宁佳 吉宗祥 刘耀 贺天伟 化柏林 王启云 贡金涛 苏金燕

发表评论 评论 (18 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

当前推荐数：16 推荐人：陈辉马峥李斌何学锋武夷山许培扬俞立平罗汉江宁佳吉宗祥刘耀贺天伟化柏林王启云贡金涛苏金燕

发表评论评论 (18 个评论)