科学网

 找回密码
  注册

tag 标签: PageRank

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

大牛的引用​≠新手的引用
热度 7 ZJUlijiang 2014-9-17 08:53
引文分析中,以被引次数作为测度指标,常常出现大量相同的被引次数(tie),例如,两篇论文都被引用了50次。我们认为, 不同级别学者施引的份量(权重)是不同的 。但当前引文分析中,统计被引次数时大牛的引用与新手的引用被视为等同,将不同级别学者的引用做几何累加。“被引次数”、“期刊影响因子”、“即年指标”、“ h 指数”等指标无不如此。为了合理地给不同的施引赋予不同的权重, 我们 改进 Google的PageRank算法,提出ArticleRank算法 。与“被引次数 ”这一指标相比, 该算法能有效地区分不同级别学者的引用,尤其适合测度高被引论文的学术影响力。 论文发表在Aslib Proceedings(SSCI收录),附论文标题与摘要: ArticleRank: a PageRank-based alternative to numbers of citations for analysing citation networks Abstract Purpose – The purpose of this paper is to suggest an alternative to the widely used Times Cited criterion for analysing citation networks. The approach involves taking account of the natures of the papers that cite a given paper, so as to differentiate between papers that attract the same number of citations. Design/methodology/approach – ArticleRank is an algorithm that has been derived from Google’s PageRank algorithm to measure the influence of journal articles. ArticleRank is applied to two datasets – a citation network based on an early paper on webometrics, and a self-citation network based on the 19 most cited papers in the Journal of Documentation – using citation data taken from the Web of Knowledge database. Findings – ArticleRank values provide a different ranking of a set of papers from that provided by the corresponding Times Cited values, and overcomes the inability of the latter to differentiate between papers with the same numbers of citations. The difference in rankings between Times Cited and ArticleRank is greatest for the most heavily cited articles in a dataset. Originality/value – This is a novel application of the PageRank algorithm. Keywords – Bibliographies, Reference services Paper type – Research paper
5707 次阅读|11 个评论
感动谷歌:浏览科学网几个精品PR6博客
热度 23 Liweigang 2014-4-6 21:09
互联网时代,社交网络应运而生,博客微信铺天盖地。饭后茶余,在网上练练手头,发个博、敲短信,不亦乐乎。不过博客写地好不好,博主有没有人气,网民们说了算。然而度天下大势,搜索引擎一统河山。能够科学、公平、全面、准确地反映出大家伙的意见,非谷歌搜索引擎莫属。当然,百度等中文网络搜索的效果和排行也不错。 PageRank就是Google网络大鳄推出的搜索排行指数,尽管单一指数难免偏颇,但能在全球范围内公道有效地评价某网站甚至某博客的网络影响力,需要快速通达的网络搜索引擎、强有力的大数据存储能力和高强度的网络平行算法。到目前为止,PageRank仍然为Google搜索和各大网站有效使用和参照。 科学网是互联网科学界最大的中文社交网络,云集各路人马,隐藏强将高手。每天24小时、每周整整7天不间断涌出科学类博客短信,引起全球华人注目。有效地向公众推荐优秀博文是广大读者的需要,也是科学界本身的研究课题。尽管科学网推出评价博主博文的一系列周排行、月排行、总排行和均排行等业绩报表。但这种排行只是从统计意义上反映出博客的访问量等指标。在体现科学网的价值观实现上,难以得到统一的认可。 笔者本学期给研究生上人工智能课,在讲及搜索理论和技术时,交给学生们的第一个作业就是研究PageRank技术。在备课举例时,顺便看看科学网众博主在Google搜索的分级情况。总的来说,科学网网站在Google搜索的PR值达到8级。而据不完全统计,科学网内有15名博主的个人博客达到PR6级。 这些博客,基本上反映出科学网的价值取向,堪称中国科学界的精品博客。以下博主博客顺序,按科学网列出的博文平均点击量排行列出,没在排行榜上的博客,按总访问量排序。 1)饶毅 - 饶毅的个人博客 http://blog.sciencenet.cn/u/饶毅 或 http://blog.sciencenet.cn/home.php?mod=spaceuid=2237 博文: 353,已有 7270194 人来访过。 2)文双春 - 没文化开的老文 http://blog.sciencenet.cn/u/SoSoliton 口开神气散,舌动是非生。文字里徜徉,生活里快乐。scwen@hnu.edu.cn 博文: 1265,已有1780588 人来访过。 3)刘全慧 - 湖南土著 http://blog.sciencenet.cn/u/qhliu 理论物理博士,湖南大学教授。 博文: 104,已有1127291人来访过。 4)吴飞鹏 - 大漠孤魂 http://blog.sciencenet.cn/u/cwufp 真实,自由,诚挚,平等 (个人天地,纯属消遣) 博文: 241,已有1640386人来访过。 5)闵应骅 - 闵应骅的博客 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法 博文: 384,已有1040681人来访过。 6)曹聪 - 公事的私论 http://blog.sciencenet.cn/u/曹聪 或 http://blog.sciencenet.cn/home.php?mod=spaceuid=45671 曹聪的博客 博文: 598,已有2276700 人来访过。 7)曹广福 - 博客乎?茶馆乎? http://blog.sciencenet.cn/u/gfcao 累时休整,烦时发泄, 闲时思考,乐时分享。 博文: 1438,已有5371250 人来访过。 8)张天蓉 - tianrong1945的个人博客 http://blog.sciencenet.cn/u/tianrong1945 博文: 242,已有849370 人来访过。 9)韩健 - 生物技术创新创业 http://blog.sciencenet.cn/u/SNPs 美国HudsonAlpha研究院的研究员。做分子鉴别诊断平台技术的开发和免疫组库基础科研。 博文: 710,已有 2538445 人来访过。 10)孙学军- 氢分子医学 http://blog.sciencenet.cn/u/孙学军 或 http://blog.sciencenet.cn/home.php?mod=spaceuid=41174 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen315 博文: 1371,已有4635947 人来访过。 11)李学宽 - 记录美丽 http://blog.sciencenet.cn/u/lixuekuan 与化学家谈摄影,与摄影家谈化学! 博文: 757,已有 2202771 人来访过。 12)陈安 - 陈安 http://blog.sciencenet.cn/u/陈安博士 或 http://blog.sciencenet.cn/home.php?mod=spaceuid=53483 御风而行,把酒邀月,穷极宇宙,留意身边 博文: 5595,已有10640084 人来访过。 13)李小文 - lix http://blog.sciencenet.cn/u/lix 博文: 1276,已有 4553309 人来访过。 14) 张忆文 - zywsict的个人博客 http://blog.sciencenet.cn/u/zywsict 博文: 436,已有 371720 9 人来访过。 15)李伟钢 - 智商情商网熵田园 http://blog.sciencenet.cn/u/Liweigang 数字之美,美于形式,更在内涵: translab.unb.br 博文:138,已有 257778 人来访过。 以上各博客的PageRank值均为2014年4月6日在http://www.prchecker.info/ 网站上采集, 若有遗漏的博主博客,敬请原谅和补充。同时,科学网上很多博主的博客质量都很高,这个PR指标毕竟是Google 的一家之言,作为学术研究的单方面参考。 感谢张忆文、戴昌德两位老师的补充资料。特别致谢刘艳红老师对PageRank的进一步系统介绍。 注:严家新老师提出一个值得思考的现象。由于http://www.prchecker.info/网站不接受对URL上有汉字的博客PR值查找,笔者在查找上述名单上有中文名字的博客地址时,使用科学网提供的虚拟代码地址,这样查出的PR值可能不太准确。以后有空再核实一下,想办法查得这些博客的准确PR值来。如果博主的博客URL网址是由拼音组成的,请以此URL查得的PR值为准。由此给大家带来的不便,切望谅解。
个人分类: 社交网络|6228 次阅读|65 个评论
关于基于链接的知识
clarkchen 2012-11-27 13:21
本来是按照之前的计划来的,但是突然有个想法觉的pagerank貌似能和 异构网络结合一下,然后想突击一个实验,, 但是在读论文和做实验的时候,真是卡的不行。 有一些知识点,比如EM算法和 SVM算法的实现 等基础 性知识花费时间太多,这些算法吧,大家说起来都知道,但是实现或者能用起来是个问题。 现在感觉处于一个递归返回的过程中,所以先把我这几天关于 PageRank 的一些总结和想法贴上,,只是一个类似于草稿的形式。等这个体系好了以后,我再美化下。 内容: pageRank 一些基本知识总结: pagerank资料.zip 但是PageRank 自提出之后,就有很多问题了,如下面所列。 然后这所有的分类都归属到,techniques to combat link based spam, 都是基于链接的对抗方法 link farms 构造大量的虚拟网页,相互指向 危害很严重的 好的网页排名上去,坏的网页排名下去,这是最正常的情况吧, 那么什么是不好的情况呢,好的网页排名下降,或者是坏的网页的排名上升 而实际上,这样做的方法 这里介绍一种 叫做 trustrank 的方法 comment spam 评论垃圾 product network 那么这里的 comment network 就是这样的感觉 comment spam,感觉这招叫做借刀杀人,比如一个人开了一个博客 或者说是新浪的博客吧,写了一篇非常好的文章,各种人都转载,然后就有一堆贱人在下面留言,留下一堆spam 网页的链接 这样做的结果就是把好我网页给拖下水 link bombing 连接炸弹 同样是构造大量的虚拟网页,不过其目的是占领某一个关键词 构造大量的网页包含相同的关键词,以及超链接,链接到目标网页去, 这是一种另类的破坏 google 或者百度 都是屏蔽了一些关键词的 比如胡春华,令计划,李小鹏 这样的一些背后的大佬 还有一些被抹杀的事件,比如林彪,江青,孙维世 好吧,这就是传说中的无辜躺枪,知道为什么google 经常被屏蔽吗。。 针对这种躺枪的情况,我自己觉的真是没有什么办法了,只能是当有用户报告这个关键词的时候,然后对这个关键词的 返回结果做特殊的处理,因为这样的情况实际上没有多大的危害的而且也可以被快速修正 pager Rank 还有什么不好的地方呢: 新的网页排名肯定非常靠后,可能要出现很久之后才能得到很好的排名, 那么这个google 也是没有办法解决的 SEO就是一项为这项工作而生的,google bomb 是将这项工作做到疯狂的结果 再换一个思维,你转载别人的文章有什么好处,你自己写了篇博客 对于你的pagerank 值是一点用处都没有的,但是他的文章能被大量转载说明他的确能解决一些问题,然后这篇文章里面所包含的关键词是遇到相同问题的用户 那么实际上这个就要从信息传播的角度上来考虑了, 一方面你转载这篇文章,是因为你这篇文章的确有你所需要和欣赏的地方, 另一方面这篇文章通过你这样的转载的话,也可以让你的读者看到这条信息,如果他觉的有用,他也可能转载你的文章,那么这样的话,就对你的博客的pageRank值有提升 另外一方面呢,如果这篇文章应该是够嗷嗷了一些比较好的SEO 工作,那么你如果转载这篇文章的话,在搜索引擎进行检索的时候,你的排名也会得到相应的提高,甚至如果你在他的基础上做了进一步的SEO 优化,那么你可能会赚取更多的点击量。 举一个极端的例子 比如 如何成为 《XXX的女婿》(你懂得),这篇文章里面包含了包含了很多 非常少见的关键词 刘牛珍,杀狗坡,跑山王,而且出现次数比较多, 整个网络上除了原作者之外,只有你转载的了这篇文章,那么你搜索 如何成为XXX的女婿,那么你的排名也一定会非常的高,然后做进一步优化,将那几个特殊的关键词再进行进一步扩展,例如 《刘牛珍 和 XXX的情史》 那么当用户看原作者文章的时候,一看到刘牛珍的话,肯定不知道是谁,他会再搜索 XXX 刘牛珍,这样你就又能增加点击量了 link farm harmful: A. Borodin, G. O. Roberts, J. S. Rosenthal, and P. Tsaparas. Finding authorities and hubs from link structures on the world wide web. In Proceedings of the 10th International World Wide Web Conference, pages 415–429, Hong Kong, China, May 2001. R. Lempel and S. Moran. The stochastic approach for link-structure analysis (SALSA) and the TKC effect. Computer Networks, 33(1–6):387–401, 2000. Approaches: A graph theory-based approach can be used to detect link farms. Wu and Davison used bipartite graph for finding spam in B. Wu and B. D. Davison. Undue influence: Eliminating the impact of link plagiarism on web search rankings. In Proceedings of the 21st Annual ACM Symposium on Applied Computing, pages 1099–1104, Dijon, France, Apr. 2006. Some researchers have proposed utilizing statistical approaches to detect link farms. M. Cafarella and D. Cutting. Building Nutch: Open source. Queue, 2(2):54–61, Apr. 2004. 所以这个有什么解决的方法呢: 让网站自己管理,这些评论,前面自己加一个 no-follow 的标签 在提取这些网页内容的时候,由google自己来做处理,啊,这一听就是一个无比坑爹的想法,这主公事情肯定是可以分而治之的啊 但就是这样的愚蠢的想法,竟然还有人发了非常好的文章,,所谓学术界就是你说别人是不对,然后证明他对能发文章,证明他错也能发文章(其实也不对,只要将这种方法运用到各个子网站上就行了) 针对这种躺枪的情况,我自己觉的真是没有什么办法了,只能是当有用户报告这个关键词的时候,然后对这个关键词的 返回结果做特殊的处理,因为这样的情况实际上没有多大的危害的而且也可以被快速修正
1287 次阅读|0 个评论
2011年12月科学网博客影响力249人
热度 43 Liweigang 2012-1-10 07:33
科学网 (sciencenet.cn) 的 2011 年 12 月是一个值得纪念的时段,中国科学人信息时代弄博戏文,在社交网络历史上将留下鲜明记印。为此,巴西利亚大学网熵科技团队,开发博客影响力评价信息系统,来记载此激动人心年华,隆重推出 2011 年 12 月科学网博客影响力 武夷山、陈安和饶毅等博主共 249 人,为该网络社区 5 周年献礼。 系统的网络数据自动获取 “ 机器蜘蛛 ” ,从科学网博客网站一月内热门博文分页收集 2011 年 12 月 7 日至 2012 年 01 月 6 日期间的 900 篇博文和相关 249 位作者博主清单。然后, “ 机器蜘蛛 ” 进入这 900 篇博文网页内收集各文的推荐人名序列,共有 2405 位博主分别推荐这些博文。 基于谷歌搜索网页排行原理 ,对此 2405 x 2405 数据矩阵,使用 PageRank 算法,计算所涉及的 249 位作者影响力和排行。经过十余次迭代计算,与此矩阵相对应的 PageRank 向量值有效收敛,各值的前后迭代绝对误差位均小于 0.0002 ;与最大元素值相比,相对误差小于 0.70% 。此向量的前 249 个数值, PageRank ,即代表作者博主的影响力。下表中的相对 PageRank 值,是经过非线性转换的相对指标。本文所采集的数据和计算结果均为网上公开资料,若有不妥,敬请指正,并以科学网官方发表数据为准。 根据对博客博文的访问量,科学网博客网页上已列出博文月排行、博客总排行和博文均排行等评价结果。本文列出的影响力只是从精选和热门博文推荐角度,另一个侧面来反映博客博主的影响力。其目的不是要取代已有的科学网排行榜,只是拾遗补缺,完善博客运营的评价系统。 本节系李伟钢《社交网络的 e 民主与 i 集中初探》连载博文的第八部分:大结局,作者为巴西利亚大学计算机系 TransLab 实验室的郑建亚和李伟钢。特别感谢科学网众博主和编辑部同仁的友情支持。 2011 年 12 月科学网博客影响力 249 人 (2011 年 12 月 7 日 -2012 年 01 月 6 日 ) 排行 博主姓名 PageRank 原值 PageRank 相对值 相对误差 % 1 武夷山 0.0304 100 0.33 2 陈安 0.029 0 99 0.00 3 饶毅 0.0266 97 0.66 4 曹广福 0.0238 94 0.33 5 李学宽 0.0214 91 0.33 6 吴飞鹏 0.0209 90 0.00 7 王德华 0.0206 89 0.00 8 吕喆 0.0189 86 0.00 9 曾泳春 0.0173 82 0.00 10 曾新林 0.0172 82 0.00 11 张玉秀 0.0162 80 0.00 12 孟津 0.0158 78 0.00 13 肖重发 0.0148 75 0.00 14 鲍得海 0.0126 68 0.33 15 赵斌 0.0121 66 0.33 16 苏德辰 0.0115 64 0.33 17 黄秀清 0.0115 64 0.00 18 廖俊林 0.0107 60 0.00 19 王飞跃 0.0105 59 0.66 20 陈筝 0.0102 58 0.00 21 张志东 0.01 00 57 0.00 22 唐常杰 0.0095 55 0.00 23 杨晓虹 0.0093 54 0.00 24 吴宝俊 0.0092 54 0.00 25 王鸿飞 0.009 0 53 0.00 26 李泳 0.009 0 53 0.00 27 李小文 0.009 0 53 0.00 28 边一 0.0089 52 0.00 29 李侠 0.0086 51 0.00 30 张天翼 0.0083 49 0.00 31 文双春 0.0081 48 0.00 32 赵明 0.0078 47 0.00 33 柏舟 0.0078 47 0.00 34 黄智勇 0.0078 47 0.33 35 陈湘明 0.0076 46 0.00 36 杨玲 0.0074 45 0.00 37 刘庆丰 0.0071 43 0.00 38 王铮 0.0071 43 0.00 39 张彦斌 0.007 0 42 0.00 40 科学网 0.0068 41 0.33 41 贾伟 0.0066 40 0.00 42 迟菲 0.0066 40 0.00 43 邢志忠 0.0062 38 0.33 44 黄锦芳 0.006 0 37 0.33 45 刘洋 0.0059 36 0.00 46 孙学军 0.0059 36 0.00 47 李静芳 0.0059 36 0.00 48 蔣勁松 0.0056 35 0.00 49 彭思龙 0.0054 33 0.00 50 张焱 0.0054 33 0.00 51 魏东平 0.0053 33 0.33 52 王修慧 0.0053 33 0.00 53 余昕 0.0051 32 0.00 54 鲍海飞 0.0051 32 0.00 55 韩健 0.0049 31 0.00 56 高建国 0.0049 31 0.00 57 陈绥阳 0.0047 29 0.00 58 刘昶 0.0044 28 0.00 59 闵应骅 0.0044 28 0.00 60 喻海良 0.0043 27 0.00 61 丁甜 0.0042 26 0.00 62 麻庭光 0.0041 26 0.00 63 程代展 0.0041 26 0.00 64 邸利会 0.0039 25 0.00 65 钟炳 0.0038 24 0.00 66 沈晓雄 0.0038 24 0.00 67 徐磊 0.0037 23 0.33 68 李荫远 0.0037 23 0.00 69 王芳 0.0036 23 0.00 70 肖传国 0.0036 23 0.00 71 曹聪 0.0035 22 0.00 72 刘玉仙 0.0035 22 0.00 73 杜立智 0.0035 22 0.00 74 李伟钢 0.0035 22 0.00 75 雷栗 0.0035 22 0.00 76 吴国清 0.0034 22 0.00 77 王晓明 0.0034 22 0.00 78 梁进 0.0034 22 0.00 79 刘俊明 0.0032 20 0.00 80 李维 0.0032 20 0.00 81 罗渝然 0.0031 20 0.00 82 刘波 0.0031 20 0.00 83 冯大诚 0.0031 20 0.00 84 张海霞 0.003 0 19 0.00 85 刘广明 0.003 0 19 0.00 86 张利华 0.003 0 19 0.00 87 杨月琴 0.003 0 19 0.00 88 秦四清 0.0029 18 0.00 89 关燕清 0.0029 18 0.00 90 嵇少丞 0.0029 18 0.00 91 王宝山 0.0029 18 0.00 92 贾鹤鹏 0.0029 18 0.00 93 王春艳 0.0028 18 0.00 94 沈海军 0.0028 18 0.00 95 武京治 0.0027 17 0.00 96 周可真 0.0027 17 0.00 97 陈国文 0.0027 17 0.00 98 王涛 0.0026 17 0.00 99 李维音 0.0026 17 0.00 100 何士刚 0.0026 17 0.00 101 刘艳红 0.0025 16 0.00 102 吕乃基 0.0024 15 0.00 103 童庆炳 0.0024 15 0.00 104 马臻 0.0024 15 0.00 105 丛远新 0.0023 15 0.00 106 杨正瓴 0.0023 15 0.00 107 徐迎晓 0.0023 15 0.00 108 段煦 0.0023 15 0.00 109 宋元元 0.0023 15 0.33 110 杜彦 君 0.0023 15 0.00 111 何毓琦 0.0023 15 0.00 112 刘全慧 0.0022 14 0.00 113 陈小润 0.0022 14 0.00 114 庄世宇 0.0022 14 0.00 115 王云才 0.0021 13 0.00 116 蒋继平 0.0021 13 0.00 117 周涛 0.002 0 13 0.00 118 陈儒军 0.002 0 13 0.00 119 鲍永利 0.002 0 13 0.00 120 牛怀北 0.0019 12 0.00 121 李宁 0.0019 12 0.00 122 曾荣昌 0.0019 12 0.00 123 武际可 0.0019 12 0.00 124 安萌茵 0.0019 12 0.00 125 孙滔 0.0018 12 0.00 126 金拓 0.0017 11 0.00 127 钟伟 0.0017 11 0.00 128 徐耀 0.0017 11 0.00 129 徐长庆 0.0017 11 0.00 130 李世春 0.0017 11 0.00 131 吕秀齐 0.0017 11 0.00 132 方唯硕 0.0017 11 0.00 133 唐凌峰 0.0016 10 0.00 134 金小伟 0.0016 10 0.00 135 齐霁 0.0016 10 0.00 136 郑融 0.0016 10 0.00 137 刘进平 0.0016 10 0.00 138 李永丹 0.0015 10 0.00 139 陈龙珠 0.0015 10 0.00 140 骆小红 0.0015 10 0.00 141 刘小平 0.0015 10 0.00 142 黄安年 0.0014 9 0.00 143 王晓钢 0.0014 9 0.00 144 许培扬 0.0013 8 0.00 145 吉宗祥 0.0013 8 0.00 146 熊航 0.0013 8 0.00 147 王安邦 0.0013 8 0.00 148 王邦进 0.0013 8 0.00 149 曹然 0.0013 8 0.00 150 夏凡 0.0013 8 0.00 151 卢文发 0.0013 8 0.00 152 葛肖虹 0.0012 8 0.00 153 林中祥 0.0012 8 0.00 154 饶海 0.0012 8 0.00 155 宁晓玉 0.0012 8 0.00 156 赫英 0.0012 8 0.00 157 戴世强 0.0012 8 0.00 158 何宏 0.0011 7 0.00 159 王应宽 0.0011 7 0.00 160 罗教明 0.0011 7 0.00 161 杨学祥 0.0011 7 0.00 162 卫军英 0.0011 7 0.00 163 张雪峰 0.0011 7 0.00 164 张婷婷 0.0011 7 0.00 165 马英 0.0011 7 0.00 166 凤琼 0.0011 7 0.00 167 李铭 0.001 0 6 0.00 168 王鹰 0.001 0 6 0.00 169 罗帆 0.001 0 6 0.00 170 李斌 0.001 0 6 0.00 171 郝柏林 0.001 0 6 0.00 172 赵卫民 0.001 0 6 0.00 173 严家新 0.001 0 6 0.00 174 魏正涛 0.0009 6 0.00 175 赵金丽 0.0009 6 0.00 176 吴超 0.0009 6 0.00 177 赵明 0.0008 5 0.00 178 牛文鑫 0.0008 5 0.00 179 吕洪波 0.0008 5 0.00 180 许浚远 0.0008 5 0.00 181 印大中 0.0008 5 0.00 182 方庆林 0.0008 5 0.33 183 孟庆仁 0.0008 5 0.00 184 阮敏 0.0008 5 0.00 185 亢阳 0.0008 5 0.00 186 庄克琛 0.0008 5 0.00 187 田青 0.0008 5 0.00 188 匡耀求 0.0008 5 0.00 189 薛宇 0.0008 5 0.00 190 张欣 0.0007 4 0.00 191 李新海 0.0007 4 0.00 192 伍加 0.0007 4 0.00 193 刘全生 0.0007 4 0.00 194 王海辉 0.0007 4 0.00 195 周清如 0.0007 4 0.00 196 许再福 0.0007 4 0.00 197 许小可 0.0006 4 0.00 198 谢强 0.0006 4 0.00 199 李天成 0.0006 4 0.00 200 柳海涛 0.0006 4 0.00 201 刘良云 0.0006 4 0.00 202 朱晓刚 0.0006 4 0.00 203 张叔勇 0.0006 4 0.00 204 贾振华 0.0006 4 0.00 205 熊俊波 0.0006 4 0.00 206 贺鹏 0.0006 4 0.00 207 刘鹏飞 0.0006 4 0.00 208 张路路 0.0006 4 0.00 209 徐坚 0.0005 3 0.00 210 韩世清 0.0005 3 0.00 211 张欣 0.0005 3 0.00 212 金凯 0.0005 3 0.00 213 毛宁波 0.0005 3 0.00 214 张红光 0.0005 3 0.00 215 王野 0.0005 3 0.00 216 郝炘 0.0005 3 0.00 217 于强 0.0005 3 0.33 218 张峰 0.0005 3 0.00 219 任胜利 0.0004 3 0.00 220 胡荣桂 0.0004 3 0.00 221 王军强 0.0004 3 0.00 222 张有学 0.0004 3 0.00 223 樊超 0.0004 3 0.00 224 蒋迅 0.0004 3 0.00 225 肖建华 0.0004 3 0.33 226 孙常全 0.0004 3 0.00 227 吴瑞纪念基金会 0.0004 3 0.00 228 沈惠川 0.0004 3 0.00 229 王继乾 0.0004 3 0.00 230 王承志 0.0003 2 0.00 231 李力强 0.0003 2 0.00 232 肖振亚 0.0003 2 0.00 233 张亮生 0.0003 2 0.00 234 邵明飞 0.0003 2 0.00 235 肖陆江 0.0003 2 0.00 236 马志飞 0.0003 2 0.00 237 欧阳峰 0.0003 2 0.00 238 刘建国 0.0003 2 0.00 239 张乐 0.0003 2 0.00 240 陈斌 0.0003 2 0.00 241 徐传胜 0.0003 2 0.00 242 王晓明 0.0003 2 0.00 243 王晓光 0.0003 2 0.00 244 赵帅飞 0.0002 1 0.00 245 牛登科 0.0002 1 0.00 246 汪小龙 0.0002 1 0.00 247 聂辉华 0.0002 1 0.00 248 张宇宁 0.0002 1 0.00 249 蒋大和 0.0002 1 0.00 Sergey Brin, Lawrence Page, The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems (30), pp.107-117, 1998.
个人分类: 社交网络|7510 次阅读|76 个评论
娱乐中的PageRank
timy 2011-4-11 10:13
娱乐中的PageRank
上次发了一篇博文《 “忐忑”背后的计量学原理 》,对如何判断一首新歌是真火还是假火,给出博主自己的一点想法。那么如何评价一个歌手的影响力?文献计量上的东西是否也能用呢? 评价学术期刊和论文有影响因子、被引频次等统计指标,评价学者有H指数等指标。类似地,在娱乐界,比如对歌手的评价,利用被引用(被翻唱)现象,仅仅依据一些客观数据,大致也可以判断一下歌手的影响力,如果引入 PageRank 等方法,则计算的结果可能更加可靠。 比如一代巨星邓丽君的歌曲的被引情况如下图: (该图截自于 :http://list.mp3.baidu.com/zt/2011/huainian/index.html ) 上图中,很多PR值高的歌手翻唱邓丽君的歌曲,从侧面反映了她的影响力。 当然了,如果能弄出论文作者H指数一样的东西,比如歌手H指数啥的,也是有点意思的,现在需要的就是互联网上如何自动获取这些数据了。与获取论文的引文信息相比,获取歌曲被翻唱的信息,可能难度要大些,要更多地借助自然语言处理技术。 以上仅供参考,欢迎各位博友批评指正。 博主相关博文 : 1. “忐忑”背后的计量学原理 2. 评价不是伪科学 3. 科学网上值得研究的问题 (本博文作者: timy , 本博文地址: http://blog.sciencenet.cn/home.php?mod=spaceuid=36782do=blogquickforward=1id=431801 )
个人分类: 信息检索|3864 次阅读|0 个评论
“忐忑”背后的计量学原理
热度 7 timy 2011-2-23 15:49
“忐忑”背后的计量学原理
最近被网民称为神曲的“ 忐忑 ”很火,被很多人翻唱,之所以这么火,搞传媒的、做复杂网络研究的,估计都有各自的方法来解释。我想从文献计量的角度做个粗浅的理解,来解释一下“忐忑”是“真火”还是”假火”。 (1) “忐忑”(表示为A)被N个人(这里只一般意义上的人)传唱,也就是说A被N个对象引用,按照传统的文献计量方法,N越大,影响力越大; (2) 显然(1)有不合理的地方,存在虚假引用的情况,比如网络推手的恶意传播,某些娱乐节目的短信投票环节也存在这个问题,那么,就对(1)中的N个引用对象进行区分,某些娱乐节目的做法是请几个“大腕”来打分,他(她)的权重很高,一般人的投票权重很低,然后综合一下得分,从而得到最终排名; (3) 显然(2)中,请的“大腕”是什么人,这个很重要。是不是公认的权威,这是值得商榷的,比如请其他行业的人来评价某一行业的对象,是否合适?那么有没有比较好的方法呢,文献计量学里就有一个很好的方法,就是依靠引文来解决,发展到后来信息检索领域的经典的 PageRank算法 、 HITS算法 ,是度量引用对象权威程度的公认的好办法,这些方法能综合考虑引用和被引用对象之间的关系,能得到比较可信的权威度(当然,也有在PageRank上作弊的方法,研究人员也想出了很多对策进行“反作弊”)。让我们来继续看A,由于N个引用对象中,有王菲、梁静茹、郭德纲、杜汶泽等M(MN)个大腕来“引用”,通过PageRank、HITS等算法,计算得到这M个大腕本身的权重或者权威度都比较高,因此通过PageRank、HITS等算法,最终A的得分自然就高; (4) (3)中用PageRank,HITS算权威度需要很多数据,太麻烦了,有没有比较简单的方法呢? 有的,可以利用各大网站的排行榜,综合一下,也能得到大差不差的结果,单纯靠作弊成“大腕”的可能在一两个网站是可能的,但综合多个网站的排行榜的结果(排除转载的情况),一般可以过滤他(她)们,这个做法类似于综合利用多个大学排行榜,得到一个综合值,从而得到相对可信的排名。 (5) 其他问题,比如是否可以借用“文献半衰期”等方法,来预测下A能火多久等等问题,那就需要更多的数据来做分析了。 (注: 该图由博主制作,带头像的小图均来自于Google图像搜索结果) 以上仅供参考,欢迎讨论。
个人分类: 科学评论|4793 次阅读|18 个评论
PageRank计算方法的SQL实现
leeshuqing 2011-2-3 19:59
1、表准备 存储所有网页的基本信息 CREATE TABLE ( IDENTITY (1, 1) NOT NULL , (900) COLLATE Chinese_PRC_CI_AS NULL , COLLATE Chinese_PRC_CI_AS NULL , NULL , NULL , CONSTRAINT PRIMARY KEY CLUSTERED ( ) ON ) ON TEXTIMAGE_ON GO 存储网页链接关系 CREATE TABLE ( NULL , (900) COLLATE Chinese_PRC_CI_AS NULL , NULL , (900) COLLATE Chinese_PRC_CI_AS NULL ) ON GO 2、执行脚本,填充WebPages中的REFCOUNT,使之成为链出网页的数量 declare cur_webpages cursor for select docid from webpages declare @docid int open cur_webpages fetch next from cur_webpages into @docid while (@@fetch_status=0) begin declare @rcount int select @rcount=count(*) from pagelinks where docid=@docid update webpages set refcount=@rcount WHERE CURRENT OF cur_webpages fetch next from cur_webpages into @docid end close cur_webpages deallocate cur_webpages 3、填充初始值 update webpages set weight=1.0/(select count(*) from webpages) update webpages set REVWEIGHT=0 4、计算PageRank的SQL脚本 declare @count int set @count=0 while(@count=7) begin declare cur_webpages cursor for select docid,refcount,weight,revweight from webpages declare @docid int declare @refcount int declare @weight float declare @revweight float if(@count%2=0) select docid,weight into pagebak from webpages else select docid,revweight as weight into pagebak from webpages CREATE INDEX ON . ( ) open cur_webpages fetch next from cur_webpages into @docid,@refcount,@weight,@revweight while (@@fetch_status=0) begin if @refcount0 begin if(@count%2=0) update pagebak set weight=weight+(@weight/@refcount) where docid in (select anchordocid from pagelinks where docid=@docid ) else update pagebak set weight=weight+(@revweight/@refcount) where docid in (select anchordocid from pagelinks where docid=@docid ) end fetch next from cur_webpages into @docid,@refcount,@weight,@revweight end close cur_webpages deallocate cur_webpages if(@count%2=0) begin update webpages set revweight=0.2+(select weight from pagebak where pagebak.docid=webpages.docid) update webpages set revweight=revweight/(select sum(revweight) from webpages) end else begin update webpages set weight=0.2+(select weight from pagebak where pagebak.docid=webpages.docid) update webpages set weight=weight/(select sum(weight) from webpages) end drop table pagebak select * from webpages set @count=@count+1 end
3670 次阅读|0 个评论
[转载]PageRank: Stand On The Shoulders Of Giants
timy 2010-11-12 02:14
From: http://www.technologyreview.com/blog/arxiv/24821/ Scientist Finds PageRank-Type Algorithm from the 1940s Google's PageRank algorithm was developed in 1998. But a project to trace the history of such algorithms reveals an example from the 1940s. kfc 02/17/2010 7 Comments