科学网

 找回密码
  注册

tag 标签: Rousseau

相关帖子

版块 作者 回复/查看 最后发表

没有相关内容

相关日志

[严肃内容] 鲁索(Rousseau)教授对皮尔逊相关系数实质认识的图示
热度 6 zlyang 2020-7-20 12:11
鲁索 (Rousseau)教授对 皮尔逊相关系数 实质认识的图示 一、鲁索(Rousseau)教授简介 比利时情报学家、国际科学计量学与信息计量学学会前会长罗纳尔德·鲁索(Ronald Rousseau)教授,国际著名信息计量学专家,被誉为信息计量学之父。 1979年获比利时科学院奖,2001年获国际科学计量学领域最高奖普赖斯(Price)奖。 鲁索和刘玉仙博士,2012,北京 http://users.telenet.be/ronald.rousseau/html/more_pictures1.html 鲁索教授是本网刘玉仙博士、研究员的博士导师。刘玉仙博主是信息科学类杰出博士研究奖(The 2011 Emerald/EFMD Outstanding Doctoral Research Award in the Information Science category)得主。 二、鲁索(Rousseau)与皮尔逊相关系数(Pearson product-moment correlation coefficient)的实质 Ronald Rousseau 等人在2003年发现:“ Pearson’s r is probably not an optimal choice of a similarity measure in ACA ”,这里的 Author cocitation analysis (ACA) 是“作者共引分析”。 “ 皮尔逊相关系数可能不是定量计算‘作者共引分析’相关性的好指标 ”,真是吓死人了! 皮尔逊相关系数的定义是: 由于 r XY 计算时减去了“ 均值 ”,该系数反映的是两个随机变量 X 和 Y 之间波动性之间的“相关性”,而 不是“均值”之间的相关性 。 下面用几幅图片直观示意一下皮尔逊相关系数的意义。 不难发现,对于两个“均值”不为 0 的时间序列 X 和 Y , 皮尔逊相关系数反映的是其中 波动成分 之间的“相关性”,即下图: 而不是其“稳定成分/均值”( 虚点线 )之间的相关性!请参见下图: 所以,分析作者们之间的“共引”情况时, 皮尔逊相关系数 反映的是“作者们之间 共引变化 ”之间的“ 相关性 ”,而 不是真正的“共引 / 稳定成分/均值 ”之间相关性的强度 ! 三、鲁索(Rousseau)教授该发现的价值预估 罗纳德·鲁索(Ronald Rousseau)等人2003年的这个发现,真是吓死人了!俺可不敢说出该发现的广泛影响。它绝对是人类21世纪的“重要”科技发现之一。傻以为:在22世纪,鲁索的这个发现应该被评为“ 人类 21 世纪一百项重要科技成就 ”之一! (1)如果认为【牛顿力学】是“第 1 流”是,【麦克斯韦电磁场方程】是“第 1.3 流”的, (2)那么,Ronald Rousseau 等人2003年可能首创并将引发一个“第 4.5 流”上下的重大科技发现。 也许是比“激光和光纤 Laser and Fiber Optics”更重大的发现(发明);很有可能在“高速公路 Highways”水平上下。 不禁又怀念起我国的数理统计学家、中国科学院院士陈希孺教授( 1934-02-11 ~ 2005-08-08 )。 http://casad.cas.cn/sourcedb_ad_cas/zw2/ysxx/ygysmd/200906/t20090624_1810233.html 最有可能的前途或许是: 数据分析不 大可能 发展成 一门符合现今数学分支 严格 性标准的那种 “硬” 科学分支 ,而会以一个其领域没有明确界定的实体而存在,…… 上面截图和引用的文字,请看:陈希孺院士,1998,《数理统计学简史》第276页。 四、什么是“相关性”?怎样量化度量“相关性”?都是目前未解难题 就是阿Q,一时也没有办法。 俺找了又找,还没有找到“科学”地计算“相关性”的单一量化指标。 五、俺能提出定量计算“相关性”的新指标吗? 就是阿Q“眼里的阿Q”(简写为“QQ”,不是网站qq),一时也不敢夸下海口。 参考资料: 武夷山,2015-01-23,“大概近似正确”的评价 精选 http://blog.sciencenet.cn/blog-1557-861961.html Per Ahlgren, Bo Jarneving, Ronald Rousseau. Requirements for a co-citation similarity measure, with special reference to Pearson's correlation coefficient, Journal of the Association for Information Science Technology, 54(6): 550–560, 2003. http://onlinelibrary.wiley.com/doi/10.1002/asi.10242/abstract 罗纳德·鲁索_百度百科 https://baike.baidu.com/item/%E7%BD%97%E7%BA%B3%E5%BE%B7%C2%B7%E9%B2%81%E7%B4%A2 Ronald Rousseau: Homepage http://users.telenet.be/ronald.rousseau/html/more_pictures1.html Derek de Solla Price Memorial Medal http://www.issi-society.org/awards/derek-de-solla-price-memorial-medal/ 2001 - Ronald Rousseau (Belgium) - Leo Egghe (Belgium) 美国国家工程院. Greatest Engineering Achievements of the Twentieth Century . http://www.greatachievements.org/ 中国科学院,院士,陈希孺 http://casad.cas.cn/sourcedb_ad_cas/zw2/ysxx/ygysmd/200906/t20090624_1810233.html 相关链接: 2020-7-14,破除论文“SCI至上”:给定量化科技评价研究的一些建议 http://blog.sciencenet.cn/blog-107667-1242010.html 2020-06-17,敬请慎重使用和看待“数据统计与分析”的结果 http://blog.sciencenet.cn/blog-107667-1238236.html 2020-06-07, 二十世纪最伟大的工程成就:关键时间与起因 http://blog.sciencenet.cn/blog-107667-1236835.html 感谢您的指教! 感谢您指正以上任何错误! 感谢您提供更多的相关资料!
个人分类: 风电功率预测|5312 次阅读|51 个评论
我对h指数的研究简述
周春雷 2009-2-26 10:49
我对 h 指数的研究简述 周春雷 0 引言 我之所以对 h 指数抱有浓厚的兴趣,起源于发现的两个问题,但我并没有在国际情报界发表的相关论文里找到答案。它们分别是 h 指数 合作式注水问题和 h 指数精确注水问题。 1 h 指数 合作式注水问题 鲁索( Ronald Rousseau )教授审阅了我提供的国际图情领域高影响力作者名单,对这些人物在LIS领域的影响力没有异议,但对我统计第一作者 h 指数感到很迷惑,因为他与合作者的排序都是按字母顺序来的。 我的答复:一来是为了与基于 CSSCI 的统计数据对比,二来是由于合作式注水问题。 There are two resons.1) We use CSSCI instead WOS to count Chinese scholar's h-index,which is a major citation database in China.But it only have the first authors.In our culture,we think the first author contribute mostly to a paper,the others are less important.So I count the first auhors separately to make a contrast.2) I discovered that there is a big defect if traditional h-index counting method.As you know,too many Coauthors could greatly inflate the h-index.I think false collaborate could lead to serious h-index injection,which is named by me.I will show you a fictitious example below: There are 6 authors:A,B,C,D,E,F.They are all single author of their papers. A,B,C has 2 papers each.D has 1 paper.E,F has no paper. Suppose their papers' citaion set are as fellow: A(10,9), B(8,8), C(7,6), D(6), E(0), F(0). So their h-index should be 2,2,2,1,0,0. But if they collaborate together,their h-index will all become 6! In theory,the only limitation of the cheaters' h-index is the scale of their collaborate net. SN 1 ABCDEF 10 6 h(A)=2 2 ACBDEF 9 6 h(B)=2 3 BACDEF 8 6 h(C)=2 4 BCADEF 8 6 h(D)=1 5 CBADEF 7 6 h(E)=0 6 CABDEF 6 6 h(F)=0 7 DABCEF 1 6 I think this is serious to h-index. h 指数合作式注水缺陷【可能会】降低 h 指数作为一个新科学评价指标的信度。但是,若采取过于严厉的措施,如在 h 指数统计中只计算第一作者成果,则会导致 h 指数区分度的显著下降。因为大量作者的成果是通过合作完成的,仅计算第一作者成果会导致大量作者 h 指数明显下降,具有相同 h 指数的作者人数大增,这将使 h 指数因区分度太小而失去价值。 h 指数该如何在这种两难境地之间做出改进呢?本文提出了由合作者均分被引荣誉的 h-a 指数,试图在不干扰学者正常科研组织习惯的前提下,对学者的学术贡献进行客观、公正的评价。针对上文提及的 h 指数弊端,笔者倾向于根据合作者均分文献被引来计算 h 指数,姑且将该指标记作 h-a ( average ,均分)指数。其具体做法是根据合作者数量均分文献被引数据,保留小数点后两位数字,其它排序、统计方法与传统 h 指数一致。 2 h 指数精确注水问题 Hirsch 教授 认为h指数衡量的是一个人的全部学术成果能否经受长时间的考验,它的一个优势是很难通过自引来拔高,然而笔者对此的看法却并不乐观。笔者认为 h 指数的增长是完全可以被精确而隐蔽地操纵的。 笔者在对图情领域核心作者进行 h 指数实证研究的过程中,发现按照 h 指数定义一些很有实力的作者的 h 值应该取较低的值,但是其 h 值以下的引文数据与 h 值颇为接近,有时甚至 1 次新加的引用即可改变作者的 h 值。这样的情况无疑是令人遗憾的,但这也暴露出 h 指数的设计存在一个很隐蔽的缺陷,即 h 指数的增长存在关键点。 Hirsch 等人定义的 h 指数计算方法决定了 h 指数增长关键点的存在,隐藏着一个可以被精确注水的重大缺陷,作弊者可通过对关键点施加引用的办法,即对引文数据流拦河建坝来达到快速提升其 h 指数的目的。 通过统计全部文献的被引用情况,可以发现 h 指数增长的关键点。比如,某作者被引 9 次以上的文献是 9 篇,第 9 篇的被引次数是 9 ,第 10 和 11 篇的被引次数也是 9 ,按照 H 指数的定义,其 H 指数只能是 9 。但是,如果该作者的第 9 篇和第 10 篇的被引次数各增长 1 ,其 H 指数即可变为 10 ,其总被引次数仅需增长 2 次;如果第 9 、 10 、 11 篇的被引次数分别增长 2 ,其 H 指数即可变为 11 ,而从宏观上看,该作者的总被引次数仅需增长 6 次。所以, h 指数增长的关键点是指被引数量微不足道的增长即可显著改变 h 指数的文献。这些文献一般位于被引数量降序排列的 h 值附近,通过增加对它们的引用即可达到 h 指数快速增长的目的。由于 h 指数增长关键点的存在,作弊者通过自己或他人对处于关键点的文献施加次数很少的引用即可隐蔽地提升自己的 h 值。由于很难区分施引文者的引文动机,所以这种作弊行为将与正常的引文行为毫无区别。笔者将这种隐蔽地对 h 指数增长关键点施加影响以达到快速提升 h 指数目的的作弊行为称为 h 指数精确注水。 表 1 三名作者的被引信息及对其进行 h 指数精确注水需要的最小代价 序号 A1(h = 6) 需注水值 A2(h = 4) 需注水值 A3(h = 2) 需注水值 1 26 17 7 2 17 8 6 3 15 7 2 1 4 12 5 2 4 5 8 4 1 2 9 6 7 4 5 1 17 7 6 1 3 12 1 28 8 4 7 3 22 1 9 3 17 3 35 1 10 1 31 2 1 11 1 47 2 1 总被引 100 58 25 表 1 为三名作者所发文献被引数降序列表,根据 h 指数的定义,作者 A1 、 A2 和 A3 的 h 值分别 6 、 4 和 2 ,其中作者 A1 和 A2 的 h 值以下的被引数均与其 h 值极为接近。表 1 同时给出了对三位作者引文数据实施精确注水,将其 h 值提升 5 级所需的最小引文数。如果作者 A1 的第 7 篇文章被引数增加 1 ,其 h 值即可提升为 7 ;如果第 6 、 7 、 8 篇文章的被引数分别增加 1 、 2 、 4 次,共增加 7 次,其 h 值即可提升为 8 。同样,对于作者 A2 ,其 h 值由 4 提升为 5 和 6 需要的最小量分别为 1 和 5 ;对于作者 A3 ,其 h 值由 2 提升为 3 和 4 需要的最小量分别为 1 和 4 。换言之,单纯从数量关系上看, h 指数的增长存在关键点被引量排序在 h 值附近论文被引量的增长,如果新增被引被优先施加于这些论文,则作者 h 指数增长所需的被引量将得到极大优化。 3 h 指数面临的尴尬 如果笔者上述的两个问题成立的话,作为评价指标, h 指数将陷入这样的尴尬局面:为了杜绝合作式注水对独著者的不公平,被迫统计第一作者 h 指数,则 h 指数将普遍偏低且缺乏区分度, h 指数精确注水问题将变得非常有杀伤力。这样, h 指数作为一种成就评价指标的价值将大打折扣。 我主张将h指数用于没有功利诱惑的领域,比如分析热点关键词的领域h指数等。我指出的h指数注水问题并不会因为研究对象集合变大就消失。以期刊h指数为例,造假那是非常的隐蔽。如果搞名校排名、国家排名,想没人去操作,可能吗? 如果我们打算漠视合作式注水问题,是否可以象总结科研中存在马太效应那样,简单地把独著者受 h 指数算法歧视、合作度高者获益的现象归纳为 h 指数的交际效应,或者文雅点叫 h 指数的合作效应,从而达成共识? ――――通过 2009.2.26 日与 刘玉仙 老师讨论,我深受启发――――― 能得到大牛关注,不胜荣幸!(希望说这话没有让担心我拉虎皮招摇撞骗的朋友紧张。:) ) H 核与 h 指数增长关键点示意表 SN Citations 1 5 H Core 2 4 H Core 3 3 H Core The Growing Points of H-index 4 2 The Growing Points of H-index 5 1 我对 h 指数的研究并不会象野牛冲进瓷器店那样带来纯粹的破坏。虽然我并不讳言研究的初始动机是为了对 h 指数进行 crack 。我为了检验 h 指数的有效性,曾利用没有引文年度累加功能的 CSSCI 统计了 4k 人,外加同名作者剔除。尽管自己写了程序,工作仍非常繁重,感兴趣的朋友可以体验下。在这繁重的 h 指数统计实践中,非常羡慕 Hirsch 先生,一个物理学家,提出了这么一种新的引文利用方法就可以引得全世界跟风,所以常把它当作一个数字游戏摆弄,以感悟大牛所想,于是发现了我称之为 h 指数精确注水问题的现象。它刚好能跟一些浮躁映射到一起,所以我也就把它当作一个值得关注的问题来认真研究。国外学者认识到自引会对 h 指数有一定的夸大作用,但我的思路并非到此止步,我认为还有其它类型的夸大。于是提出 h 指数增长关键点概念来启发我的思考,从引文网络背后的社会网络思考到可能存在虚假的引用。以前学者们对虚假引文的分析仅局限于引文动机,我则将它推进到虚假引用行为的严重后果上。不曾预料这种理论推演发表后竟引来如此强烈的评议。 对 于刘 老师的感慨我深感不安。但我不明白,我坦率地与大家交流我对 h 指数的研究心得,评论一下皇帝的新装,使大家了解 h 指数脆弱的一面,这总不是什么有辱国体的研究吧? 刘 老师在评论中指出:你提出的这个问题,其实国际上是有研究的,不过,好像大家都立足于怎么增加科学的影响力,而不是怎么抑制。。。煞费苦心地防止作弊,也算中国特色吧。还有,如果在科学评价中,降低科研合作的分量而不是鼓励科研合作,你认为合适吗?一个中国人是龙,一群中国人是虫,也要体现在科学评价中吗?所以,从研究思路上,我感到非常悲哀。。。。。。中国人的信任感到哪里去了?中国为什么失去了大家的信任?不久之前,一个老师告诉我说:即使所有的中国人都不按规则行事,你也要按规则做事。我真的希望中国人对人对事会有起码的信任。 刘 老师以 Rousseau 老师特派观察员的身份发表的上述感慨让我甚是惶惑,没有想到一场简单的学术讨论居然会上升到这等高度。鉴于我的研究已经引起国外同行一定程度的关注,却有被定性为作弊研究的风险,这不仅可能会影响我未来的学术声誉(如果有的话 :) )更可能在一定程度上丑化国内情报学界的形象,我不得不厚着薄脸澄清我自己对我的研究之价值的评判。虽然成果的价值大小要由同行评议,但我客观地介绍我的工作,没有反对意见吧? 我崇尚 Simple is the best 的信条,对 h 指数高度数学化、复杂化的研究路径不以为然。我认为 h 指数是相当巧妙的,同时又是相当简单的引文分析框架。 Rousseau 等人提出的 H Core 和 h 指数精度等概念对于减少研究者讨论 h 指数时的分歧非常有帮助。我认为 h 指数存在增长关键点,如果有人蓄意改造引文自然累积结构,在引文河流中的特定位置拦河建坝( Da-mming in Citation ), h 指数增长速度将明显加快。我将这样的位置称为 h 指数增长关键点( The Growing Points of H-index )。我提出的合作式注水问题可以提醒研究者注意 h 指数评价中的公平问题。根据我的见解,现有 h 指数统计方法,对独著者存在隐性歧视。我相信我提出的这个概念可以为我们的 h 指数分析框架增加新的 Viewpoint, 通过它,我们可以看到新的 vision ,同时我们还可以试验,以观察随着它的演化可能会导致什么 Fact ,从而象警告学术不端那样禁止蓄意改造引文河流的自然结构。我不认为我提供的这个视角是邪恶的。一个没有自我保护盔甲的理论是脆弱的,我提醒大家注意到这种可能的存在,从而让学术共同体里群众雪亮的眼睛保持一点警惕,这何错之有?同样是为分析框架提供视角,为什么国外大牛可以,来自草根的就饱受非议,厚此薄彼,何也? 对于 h-a ( average ,均分)指数 ,我更有话要说。相信没有几个人会否认 etal 作者现象的存在,即使在国际学术界亦然。若有不同意见,希望有哪位大虾能举证,让也能我一窥天堂的模样。如前所述,我引出 合作式注水问题 这个概念,同样是为了给 h 指数分析框架增加新的 Viewpoint 。我对 scientometrics 的统计表明,一群人的工作未必比一个人的强。所以我对 刘 老师科学评价应该鼓励科研合作,而不是降低合作的分量的观点持不同看法。我认为,评价要做到科学,确实非常不容易,这根源于以量度质的极端复杂性。没有哪种评价形式可以放之四海,无论是影响因子、 h 指数、总被引,还是同行评议。如果同行评议真能做到完全客观,我们也不用为数学家阿贝尔的遭遇感慨了。所以,评价形式也应该多元化。 虽然合作是现代大科学研究的趋势,但笔者认为合作者数量并非越多越好。提出合作式注水问题并非为了哗众取宠。我的本意是提醒大家关注 h 指数可能导致的不公平。从理论上说,通过实施合作式注水,那些广泛挂名作者的 h 指数可以远远高出具有同等学术实力的其它作者。如果通过简单地互搭便车就能快速提升 h 指数,当我们将 h 指数作为评价标准用于资源分配等充满利益诱惑的竞争场合时,显然会极大地伤害那些独立作者。这种场面估计大违 Hirsch 教授发明 h 指数的初衷,但原始 h 指数的定义确实存在对独立作者的隐性歧视。从理论上来说,只要合作对象的学术实力够强,作者的 h 指数增长空间仅取决于其合作圈子的大小。这将在某种程度上干扰正常的科研秩序,刺激虚假的功利性合作。笔者认为,单干或合作作为不同的学术生产组织方式,其本身并无优劣之分,笔者基于 Scientometrics 的调查证明了这一点。因此,评价指标无需为刺激某种科研组织方式而特意照顾。虽然合作通常可以提高学术成果产出速度和数量,但若本可由单人完成的成果强由多人合作完成,未尝不是学术资源的极大浪费。低质量成果的大量涌现未尝不是形成学术泡沫的重要根源,对速度的适当抑制可能会对提高学术成果质量形成积极刺激。总之, h-a 指数虽会在一定程度上影响作者的合作积极性,但却可以有效惩罚 h 指数合作式注水行为。如果鼓励科研合作是以资源分配中牺牲广大弱小研究者的研究机会为代价,让强者占有更多资源,而年轻人除了依附之外不能研究的话,那么我要反问这种合作形式的维持究竟有多大意义? 我认为,合作者对一篇文章的贡献不可能完全等同,我说的第一作者应该说是贡献第一的作者。为了消除 h 指数评价中的因对独著者的隐性歧视而带来的公平问题,加之各领域作者排名次序传统不同,区分起来颇不容易。所以为了保护独著者,维护评价的公平,我的 h-a 指数干脆采取平均主义。我认为这样更能筛选出真正有实力的强者,起码在国内的环境下。 为了平息对 h-a 指数的指责,我将调整算法,将 h-a 指数的惩罚范围局限在非有效合作。引入有效合作这一概念是指只有被引次数大于一定数量的论文才可以被认为是值得鼓励的科研合作,其阈值各领域可以不同。通过增加对有效合作的识别, h-a 指数可以具有一定程度的智能。也许,笔者引出的这个思路可以引起算法专家们设计出更智能、更合理的算法。若果真如此,笔者指出的这个公平问题也算具有一定的理论贡献了。作为一个简单的总结,调整的 h-a 指数算法为: 根据合作者数量均分文献被引数据,但对于被引次数高于某一阈值的值得鼓励的有效合作论文的合作者奖励以一定权重,使其累计被引数可以超出论文的原始被引数,各领域可以有不同的阈值,保留小数点后两位数字,其它排序、统计方法与传统 h 指数一致。不知通过这样的改进,指责我抑制合作的论调是否可以平息? 虽然我最初是想做一个 h 指数 cracker ,但我在深入研究的过程中也深深领悟到其价值所在,所以在研究的后期我已经转变成一个积极的建构者。我们对国内图情界的实证研究表明, h 指数用于筛选领域高影响力作者是可行和有效的,我们完全可以用 h 指数是否处于一定区间作为一种比较有效的学者个人学术成就评价指标,尽管不是唯一指标。我们得出的名单是否具有公信力,大家自可评判。鉴于以个人为单位的 h 指数统计研究操作上存在的显而易见的困难,我提出了基于期刊的 h 指数批量统计法,同样以国内图情界为样本,与先前的研究进行了对比,证明这种方法的可行性、有效性。然后我又以 12 种国际图情期刊为样本,得出了国际图情界高影响力作者名单,也就是送交 Rousseau 教授审查的那份名单,我 blog 上有副本,大家可尽情评判。我的这种新的 h 指数统计方法,若被采用,将及时贴出供大家进一步辩论。此外,我还进行了其它大量的相关探索,鉴于尚未成文,不便细谈。 总之,我的探索对 h 指数的推广将是积极的,而不是消极的。如果不是受刺激,我也不愿这样自我剖析。事实上, h 指数只是我个人学术兴趣的一部分,尽管做了这些探索,我还在为能否赶在毕业前拿下一篇权威,满足管理者对我毕业资格的要求而发愁,更对以 h 指数框架开展毕业论文的选题是否会被批准忐忑不安。之所以选择把我的思考公布到科学网博客上,是希望在研究中及时获得同行的指点,少走弯路。希望我的自我鉴定没有让读者产生自我吹嘘的反感。 聊以上述文字作为我对 h 指数探索的简要总结,请各位行家批评指正! 【】内文字为接受一位前辈教诲,避嫌自我吹嘘所改动,特致谢意!
个人分类: h指数|987 次阅读|17 个评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-4 00:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部