智商情商网熵田园分享 http://blog.sciencenet.cn/u/Liweigang 数字之美,美于形式,更在内涵。

博文

博客话语权的第三次分配:百度搜狗谷歌和搜搜的收录快照 精选

已有 4837 次阅读 2012-1-12 03:21 |个人分类:社交网络|系统分类:观点评述|关键词:学者| 谷歌, 百度, 社交网络, 搜狗, 博客运营

    博客话语权的第三次分配,实际上是博客博文甚至博主在互联网的影响力,这方面与网络搜索引擎极其有关。


    本节探讨评价博文的两项指数:网络额度(Internet Credit)用以评价博文在各个搜索引擎的收录快照情况,以反映该博文在网络的影响力。网熵指数(W-entropy Index),用以综合博文的各项指标,以反映该博文在社区内的影响力。


      6.1网络额度 得分搜索


  图九显示201112月中国互联网数据中心(CNZZ)搜索引擎使用情况分析报告[4]。看得出百度搜索,稳居第一,使用率为79.89%;搜狗搜索已达第二,使用率为9.00%;谷歌搜索第三,4.95%;网易的搜搜为第四,4.56%;前四家使用率总计98.40%。本文就以此四家搜索引擎为例,从事博客网络影响力研究。



图九 201112CNZZ中国互联网搜索引擎使用情况分析报告[4]


    各家搜索引擎都有一套对网页影响力的评价系统,如百度权重、搜狗分级和谷歌搜索的PageRank等。由于东西方价值观的差异等种种原因,单一搜索引擎的分级标准对博客博文的评估还不能为各方接受。为此,网络额度(Internet Credit)概念应运而生,根据各搜索引擎对博文的收录快照情况,给出该博文在网络影响力指标。图十显示武夷山博主科学网博文《英汉词典查不到(之三十二)》在搜搜快照首页首行


图十 武夷山博主科学网博文《英汉词典查不到》在搜搜快照首页首行


    博客的网络额度(Internet Credit) 如同信用卡在银行的可透支额度,相当于博客博文在各搜索引擎的评估分级信度,具有可累积性。参照各搜索引擎当月在中国市场的使用率,并以此百分数为博文获得各搜索引擎的网络额度。例如,博文由百度收录快照,在搜索结果出现首页首行现象,该文得1分,其百度的网络额度为79.89%。如果此博文同时得到搜狗收录快照,并搜索时出现首行,该文再得1分,博客的累计额度为79.89% + 9.00% = 88.89%,等等。具体得分是这样确定的:

    百度:

  • 首页首条科学网原址 1

  • 首页首条 科学网手机版 0.8

  • 首页科学网原址 0.5

  • 首页科学网手机版 0.4

  • 首页其它网址 0.4

  、搜狗、搜搜:

  • 首页首条科学网原址 1

  • 首页科学网原址 0.5

  • 首页其它网址 0.4


    按此定义,武夷山博主科学网博文《英汉词典查不到(之三十二)》的网络额度计算参见表十。其中该文在百度搜索上的结果是科学网手机版的首页首条,得分0.8;在搜狗的搜索结果首页内出现其它网站转载此文的地址,得分0.4;在谷歌的搜索结果出现首页首行,得分1;在搜搜的搜索结果出现首页首行,得分1;由此,该文的网络额度为77.02%


                表十 武夷山博主科学网博文《英汉词典查不到》网络额度


博文

百度

搜狗

谷歌

搜搜

网络额度

权重

分数

权重

分数

权重

分数

权重

分数

英汉词典查不到

79.89

0.8

9.00

0.4

4.95

1

4.56

1

77.02


    网络额度方法较简单和直观,但问题是百度搜索结果不稳定,收录的文档有时出现,有时没有。搜狗对科学网的博文基本上是不收录。谷歌和搜搜对科学网的博文重视,流量大的博主文档一般都收录,而且结果比较稳定。鉴于此原因等,本文不再计算其它博文的网络额度。


    值得一提的是,在网上发文一定要慎之又慎。前不久科学网一位资深博主将其几篇文章删去。即使从科学网上删去了,但由于网络搜索引擎的收录快照功能,这些文章一般还会留在网上。例如图十武夷山博主的博文,在搜搜的查询结果上,大家点击一下右下角的预览,可看到此文在14个人访问时的快照版本。到目前为止,该文的访问量已达到732人次。即使武博主或科学网编辑部小编把此文删去,搜搜网页上的快照还会在网络上保留相当长时间。


      6.2网熵指数 博文社区内影响力


    科学网信息系统对博客和博文有一系列的评价指标,主要有:博文点击量、评论数和推荐数。在博客首页的热门栏目及其连接分页的排行,均以对此博文的推荐数为准。事实上,仅推荐数并不能全面反映此博文的点击量和热议程度。


    网熵指数(W-entropy Index)是基于信息论的申熵概念[5],反映各指数间的的信息分布不均匀性的一项综合指标。此指标已用来反映社交网络成员在各平台的的影响力[6]和综合计算各搜索引擎的网页分级[7]。有兴趣的读者可参考笔者团队有关资料,本节就不再详细介绍理论模型。


    表十一列出若干最新科学网博文的网熵指数计算示例。一些博主名声较大,博文惹眼,访问上万,评议过百。为能反映中级会员等网友的博文影响力,本节暂定各项指标最大参照值为:1000访问量、100评论数和100推荐数,超过此数者,指标均取最大值。


    表中饶毅博主的:从“美国梦”到“中国梦”:回国五年记,各项指标均取最大值,其网熵指数为100。徐耀博主的:科研故事:选题不当将研究生推出科研之门,平均指数为0.7936,负熵分布系数为0.9566,网熵指数为75.92。曾泳春博主的:那些找不回来的青春年少—后记,平均指数为0.5292,负熵分布系数为0.7849,网熵指数为41.53


                        表十一 若干博文网熵指数计算示例
(2012-01-09)


博文

访问量

评论数

推荐数

平均

指数

分布

系数

网熵指数

各项指标最大参照值

>10000

>100

>100

1

1

100

饶毅:从“美国梦”到“中国梦”:回国五年记

14364

176

212

1

1

100

曹广福 165.6万人报考研究生意味着什么?

12188

98

101

0.9933

0.9999

99.33

徐耀:科研故事:选题不当将研究生推出科研之门

6908

93

86

0.7936

0.9566

75.92

武夷山:某些国际学术期刊是如何“提高”自己的影响因子的?

11765

45

76

0.7367

0.9145

67.37

陈安:清华大学微博事件:权力让我如此恐惧

9336

53

71

0.7245

0.9177

66.49

黄秀清:贺科学网成立五周年:巧遇二傻家的小傻

2404

66

74

0.5468

0.7861

42.99

曾泳春:那些找不回来的青春年少—后记

3076

68

60

0.5292

0.7849

41.53

李学宽: 现场直播月全食(更新中)

2160

55

74

0.5020

0.7481

37.56


      6.3 博文网熵指数与热门推荐冲突分析


    如果只是简单的计算网熵指数,也许就没太大意义。仔细分析109日科学网博客上一周内的热门博文排行前一百篇,就会发现一些现象,值得关注。本节以赵斌博主的有关文章为例,展开分析博文网熵指数与热门推荐冲突现象。

    赵斌博主201213日至9日一周内发表十篇博文,列入一周内的热门博文排行前一百篇内的文章有5篇,见表十二。科学网的热门博文是按推荐人数排行的,这5篇文章的次序分别为:1469748289。按前述定义,算出网熵指数如表。

  • 博文 1请注意,《导师教我写第一篇学术论文》有很大的误导性,发表于0104日,已有2222人次访问,30人次评论,57人推荐,网熵指数为22.69

  • 博文 2:研究生培养,是精英教育还是大众教育?发表于0103日,已有5159人次访问,44人次评论,29人推荐,网熵指数为28.58

  • 博文 3:研究生指导笔记(1):在科学研究上师生是合作关系,发表于0107日,已有1656人次访问,32人次评论,29人推荐,网熵指数为13.02


    由此看出,博文 2的网熵指数,既影响力大于博文 1,但由于推荐人数稍少一些,远远排在热门博文的后面,第69名。这一点,博文 5与博文 3 4 的情况相似。按网熵指数排行:博文 2、博文 1、博文 5、博文 3和博文 4


                表十二 赵斌博主本周若干博文网熵指数与热门推荐冲突分析
(2012-01-09)


博文

访问量

评论数

推荐数

网熵

指数

网熵

次序

热门

次序

请注意,《导师教我写第一篇学术论文》有很大的误导性(2012-01-04)

2222

30

57

22.69

2

14/1

研究生培养,是精英教育还是大众教育?(2012-01-03)

5159

44

29

28.58

1

69/2

研究生指导笔记(1):在科学研究上师生是合作关系(2012-01-07)

1656

32

29

13.02

4

74/3

科普工作并不简单,更需要热情和综合素质(2012-01-06)

1353

23

27

9.26

5

82/4

试论如何避免将研究生推出科研大门之外(2012-01-08)

4223

21

26

16.43

3

89/5


      基于以上博文分析,网熵指数综合访问量、评论数和推荐数三项指标,有一定科学性,解决了上述的热门博文排行冲突问题。可以建议科学网等博客平台,作为热门博文排行指标,以增加科学性和公平性。苏德辰博主在评论笔者前文时曾说过:科学网博客管理已是很好了。的确如此,科学网在国内大多博客类社交网络中,是做得最好的平台之一。笔者从事智能网站和博客运营研究,自然是从优化角度出发,追求最佳方法。实际上,不一定要求科学网就这么做。


    衷心感谢以上列举的博文博主,本文只是对博客传播现象分析,不评论博主和博文内容。


  参考资料

[4] 2011年12月CNZZ数据中心搜索引擎使用情况分析报告,accessed in 2012。
    http://data.cnzz.com/main.php?s=engine
[5] Shannon, Claude, A Mathematical Theory of Communication [J]. Bell System Technical Journal, Vol. 27, pp.  379–423, 623–656, 1948.
[6] Li Weigang, Jianya, Z., Daniel, L., Analysis of W-entropy Index: the Impact of Members on Social Networks. The IADIS International Conference WWW/INTERNET, pp.171-178,Rio de Janeiro, 2011. Best Paper Award.
[7] 李伟钢,申农理论 负熵算法,科学网博客文章,accessed in 2012。
    http://blog.sciencenet.cn/home.php?mod=space&uid=652078&do=blog&id=512373
[8] Sergey Brin, Lawrence Page, The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems (30), pp.107-117, 1998.



https://m.sciencenet.cn/blog-652078-528159.html

上一篇:让《师兄师妹》办科学网微博吧?
下一篇:读《大地儿女》:华人楷模–杨正民

16 许培扬 曹聪 吕喆 赵斌 曾新林 武夷山 苏德辰 徐耀 鲍海飞 蔣勁松 陈安 陈儒军 刘全慧 朱晓刚 AiPY fumingxu

该博文允许注册用户评论 请点击登录 评论 (9 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-1 14:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部