科学家伙的科研出息可否预测?如果可以预测,那么根据什么来预测、什么时候预测才比较准确?相信回答好这些问题既可让老同志安身立命,又可为年轻人指明方向。 常言道:“ 3 岁看大, 7 岁看老。”说明人有否出息、出息大小是可以预测的,科学家伙当然也不例外。科学预测科学家伙的出息,我想应该跟天气预报差不多,越长远的预测越不靠谱,但是越短期的预测又越没有什么意义,所以这里就有一个最优或临界点或分水岭的问题。 最近,南非的一位留美归国伙计在美国光学学会( OSA )网站撰文说,中年是科学家的分水岭,当奇才太老,当权威太嫩( Too Old to Be the Prodigy, Too Young to Be the Authority ),有没有出息、有多大的出息这时大局已定,主要根据科学家的 h 指数( h-index ,指某家伙有 h 篇 SCI 论文分别被引用至少 h 次)来定。你的 h 指数是否大于你的年龄的一半?例如,假设你是 40 岁,那么你的 h 指数是否大于 20 ?如果你在 40 来岁时没有达此标准,那么注定了你这一辈子不可能成大器 —— 不可能被供奉在科学殿堂或得诺贝尔奖了,除非你打算拼老命工作到 80 几岁。 需要说明的是,这个伙计是搞光学的,所以相信他的这个判据针对的是光学学科,而光学刊物的影响因子比绝大多数其他基础学科(如化学和生物)低,所以如果考虑到学科差异,对其他基础学科来说,这个判据的标准应该还要提高。南非同行的这个神机妙算对本博主来说真是及时雨,奔五的本博主最近一直在犹豫还要不要拼老命为祖国突破诺贝尔奖,至少要在有生之年让自己的名字载入史册或后人的教科书,上 SCI 网站 h-index 后,立马就决定安身立命了。 用 h 指数测算人过中年之后还能否成大器,是有一定道理的。只要有一点科学素养的科学家伙不难相信,基于基本的客观数据,对一个 40 来岁的科学家伙看大、看老,应该远比“ 3 岁看大, 7 岁看老”准确。这不是认命,而是认识。科学家伙都明白,在科学圈子混,文章是硬实力,要么发表要么灭亡( Publish or perish );在科学圈子混出头,文章被引频次又是地位和影响力的重要标志。事实上,近些年来,人们常用 SCI 引用频次来预测诺贝尔奖,准确性真还不低。 特别是,本博主认为,把 h 指数与年龄结合起来评估一个人的科研潜力,有创意,也有道理,值得在项目评审、人才选拔等学术评价中作参考。总体而言, h 指数随年龄同步增长,才表明这个科学家伙还在做事,还有发展潜力。 h 指数同样为 20 , 40 岁的家伙就比 50 岁的家伙有潜力,因为后者的 h 指数跟自己的年龄严重不相称。把 h 指数与年龄结合起来,对不同年龄的科学家伙的评价才显公平,特别有利于优秀年轻人脱颖而出。 有志向的年轻人可以从南非伙计的这个“神机妙算”中得到启示:即使是 80 岁以后得到的诺贝尔奖,也是 40 来岁之前干出来的。真是应了那句名言:“一万年太久,只争朝夕”(今天是毛主席逝世 36 周年纪念日,引用一句他老人家的话作纪念)。道理也许是,大的科学突破需要冒险和开拓精神,“不惑”之后号称“不惑”,被赞“沉稳”,这种只是对人情世故的“不惑”和本质上属不由自主的畏畏缩缩、瞻前顾后的“沉稳”,是科学研究的大忌。当你想要有出息的时候,其实你已很难有出息了;当你想要成为什么样的人的时候,其实你已很难成为那样的人了。 PS: 看了4 4 条评论后( 2012/9/9 , 13 : 55 ,首堵)附加几点说明: 1. 本预测适用 40 来岁的科学家伙,体现人到中年之前的科学积累和展现出来的科学潜力。 30 岁左右的年轻人不适用此方法。就像看八字,小孩子一般不看寿命。 2. 本预测只针对基础学科,特别是以文章为主要标志的基础研究。应用研究有应用研究的评价方法,没必要搬出袁隆平来否定论文的重要性。另外,不同基础学科的评价也有差异,本预测方法没有普适性。学术评价最重要的是同行认可,否则,不是鸡同鸭讲,就是公说公有理婆说婆有理。 3. 本预测的目的不是要打击科学家伙的信心。要注意这里的“大器”是得诺贝尔奖,或被供奉在科学殿堂,如让自己的名字载入史册或后人的教科书,跟在科研的道路上养家糊口或当长江、杰青、院士等没有丝毫关系。所以凡人不管有没有 h 指数, h 指数是多少,都不必在意。 4. “ h指数大于自己年龄的一半”,相当于初试分数线,它只排除了未上线者成大器的可能性,但并未预测上线者一定成大器。
尊敬的 Eddy 博士: IF 是最受欢迎的研究影响指标,但我同事最近告诉我该开始计算我的h指数。我觉得挺麻烦的,请你说说h指数是不是比IF好? 这是非常有趣的问题。 IF 与 h 指数的根本设计就不同: IF 是用来衡量期刊声望, h 指数则是用来衡量研究者的影响力。因此,两者无法相提并论。以下让我简短说明。 期刊 IF 是衡量某期刊在2年间发表的文章收到的引用数,这可视为期刊声望的可靠指标,但无法衡量文章或研究学者个别的影响力。 另一方面,h指数是综合研究者发表的文章数与其文章所有的引用数来评量研究者的科研成果,它评估了您的发表记录和其影响力。 IF 跟 h 指数的评量目的不同,该看的出来为何两者无法相互比较了吧! 不过你同事的建议不无道理。身为一个科研人员,计算自己的 h 指数其实比用期刊 IF 衡量声望来的有用,这对已经发表多篇文章的研究人员尤其有效。计算自己的h指数确实挺麻烦耗时间的,你需要持续记录发表文章数以及及时登录数个资料库更新被引用次数,但h指数值得你花费这些时间精力,近来h指数越来越受欢迎,也有越来越多的国际基金与任期单位将它纳入考量。 不过, h 指数跟 IF 一样有它的限制,建议你在国际基金申请或用意声明中提及各种的引用数据:发表期刊的 IF 、你的 h 指数和其他文章级别的数据等等,好让他人用整体角度来看你身为研究人员的影响力。 推荐你可以点 这里 看看IF的信息,点 这里 了解h指数,更欢迎大家提出想法互相交流。 ∷ Eddy 博士国际期刊发表支持中心内容由 意得辑 论文翻译 专家 团队 支持提供 ∷ 【意得辑提供专业 英文论文编校 、 学术论文翻译 、 英文期刊发表一站式服务 www.editage.cn 】 ____________________________________________________________________________________________ 此文同步刊载于 意得辑专家视点 频道: http://www.editage.cn/insights/eddy/h指数比影响因子(IF)好吗?
作者合作视角下的 h 指数计量方法:比较与归纳 杜建,张玢 (中国医学科学院医学信息研究所 北京 100005 ) 摘要: 在“大科学”时代背景下,表征科研合作规模的期刊论文作者合作度日益增大。然而当前国际上应用较多的学术影响力评价指标,如被引次数、 h 指数、 g 指数等均把“针对作者的引用次数”等同于“针对论文的引用次数”,而实际上各个作者在合作研究中的贡献是不同的,这尤其 对多作者合作研究成果的 评价“有失公允”。 针对于此,学界的努力主要是考虑多作者合作问题对h指数进行修正,提出了一些新方法或新指标。 本文对作者合作视角下被引次数、 h 指数等评价指标的计量方法进行全面系统的梳理,归纳比较了 “均分作者荣誉”、“考虑主要贡献作者”和“计算和作者权重” 3 种观点的优势与不足。 以期为优选较为科学合理的作者合作视角下h指数的计量方法提供基础。 关键词: 作者合作;作者合作度;被引次数;h指数;科研评价 发表于《图书情报工作》2011年24期。 1 引言 2007 年, Science 杂志报道了一项对过去 50 年间 1,990 万篇论文和 210 万条专利中的作者合作状况的研究,指出多作者合作越来越成为现代科学技术中知识产出的主流趋势 。同年, Greene M 在 Nature 上撰文指出,目前科研合作规模一直保持不断扩大,在一些学科领域(如基因组学、蛋白质组学、气候建模、粒子物理学等),多作者合作已经危及到了学者的荣誉分配体系。单作者的论文几乎已经消失了,在数学之外的大多数学科领域,越来越少的学者能够掌握足够的知识和技能独立完成重要的科学研究 。 然而当前国际上广泛应用的学术影响力评价指标,如被引次数、 h 指数、 g 指数均未 考虑到多作者合作的问题, 均把“针对作者的引用次数”等同于“针对论文的引用次数”,而实际上各个作者在合作研究 中的贡献是不同的。 Hirsch 在提出 h 指数时就已经考虑到了这一点,他认为 h 指数的缺陷之一就是没有考虑到多作者合作 。同时,一些学术型的检索系统 ( 如 Web of Science 、 Scopus 、 Google Scholar) 在统计被引次数和 h 指数时也没有考虑到作者在论文中不同的贡献度,这尤其对于多作者合作研究成果的 评价“有失公允”。 针对于此,学界的努力主要是基于作者合作对h指数进行修正。其中,国内文献仅见周春雷在 2009 年以《科学计量学》杂志 ( Scientometrics ) 的发文作者为例对 h 指数合作式注水的缺陷与对策进行简单探讨,且属于对社会科学学者的研究,得到的结果和结论并不适用于自然科学 。国外文献中不少学者均从不同角度提出了新方法或新指标。为全面反映该领域的研究现状,本文通过系统梳理,分析比较并归纳不同学者的思想和观点,以期为优选较为科学合理的作者合作视角下h指数的计量方法提供基础。 2 科研合作及其测度 科学研究中的合作关系在20世纪50年代就受到了关注,当时学术界一致认为多作者和多地址文献是计量科研合作活动的基本单元,合著文献的增多被认为是科学合作增长的一个标志 。史密斯 (M. Smith) 是探索多作者文献增长的研究者之一,他认为合著论文可作为研究小组间合作的计量指标 。普赖斯 (S. Price) 也提倡运用科学计量学方法研究科学合作的变化,并证实了史密斯关于科学研究中合作关系不断增加的结论 。 为衡量作者的合作规模 , 科学计量学界引入了期刊论文的作者合作度 (co-authorship degree) 的概念 , 即以人为单位对期刊论文的作者合作规模进行度量 , 一篇论文的作者个数即为该论文的作者合作度 。如今科研合作已经演变成为更大规模的作者合作 (mega-authorship 或 hyper-authorship) ,平均每篇论文的作者合作度越来越高,十几个甚至上百个作者也司空见惯。例如,在高能物理领域, 80-200 位作者甚至更多作者的合作论文已经比较普遍 。在生物医学研究领域,从研究设计、实验操作、结果报告到论文撰写均由一个人承担的现象已经不存在了。医学文献中作者的数量从 17 世纪 60 年代晚期到 1920 年的单个作者,已迅速增长到如今的多作者 (multiple authors) ,甚至某些情况下论文署名行中数百个作者 。随着生物医学研究中作者的合作现象越来越显著,研究群体越来越大,多作者合作的趋势也仍在继续。因此,作者合作研究成果的贡献度评估和荣誉分配问题成为近年来科学计量学和科研评价领域讨论的热点主题。 3 学者观点的比较与归纳 目前,有关作者合作视角下的 h 指数的计量方法主要有均分作者荣誉、考虑主要贡献作者和计算合作者权 重 3 种观 点,其中包括浙江大学医学信息中心胡小君 (X J Hu) 及天津大学生命科学与工程研究院张春霆 (C T Zhang) 院士的研究成果。详细信息见表 1 。 3.1 均分作者荣誉 h 指数的定义是,某作者发表的所有文献中,有 h 篇论文的被引次数至少为 h 次 。作者合作视角下通过均分作者荣誉对 h 指数进行的修正主要包括:①直接对 h 指数进行平均;②对论文数或被引次数进行平均,“平均”所用的分母均为论文的作者合作度。 3.1.1 h 指数平均 Batista 等人在 2006 年提出了 h I 指数,即作者的传统 h 指数值除以该作者纳入 h 指数的所有论文的平均作者合作度 ( 篇均作者数 ) 。若某作者是一个庞大团体中的一员(例如高能物理领域、大规模流行病学调查领域、人口统计学领域),则通常是用该作者的传统 h 指数值除以其发表论文的作者数的中位数。 3.1.2 “分数式”计 量 通过采用每篇论文作者合作度的倒数乘以论文数或被引次数的方式对论文数或被引次数进行 “ 分数式计量 ” ( Fractional counting ), 主要的代表人物及其观点如下。 ( 1 ) h m 指数 不直接对 h 指数进行平均, Schreiber 在 2008 年提出了一个更为精确的计算方法。每篇论文的被引次数都取该论文的合作度的倒数乘以该论文的实际被引次数,即 h m 指数 。具体计算方法为:将某学者的论文按被引频次从大到小排列,从第一篇论文开始逐次累加每篇论文的作者合作度的倒数,直至累加值大于其对应文献的被引频次为止,该累加值的上一个累加值便是该学者的 h m 指数。并通过对 8 位物理学家的分析,结果显示这种方法与传统的 h 指数的排序有很大区别 。说明作者合作是一个对 h 指数有影响的重要因素。 与 h m 指数类似, Egghe 在 2008 年提出被引次数和论文数都可以根据论文的作者合作度进 行“分数式”计量 ,因此会产生两个分数式计量后的 h 指数和 g 指数 。 ( 2 ) p f 指数 h 指数不能很好的展示当高值和长尾存在时的论文数量和质量 。单独增加论文的数量不会对 h 指数产生影响, “高峰”(即高被引论文)不会显著改变 h 指数,零被引文 献的“长尾”也不会改 变 h 指数。后来 Egghe 提出的 g 指数解决了 h 指数不对高被引论文敏感的问题 。但上述指标均不能反映长尾处的引文。为此, Prathap 在 2009 年提出了 p 指数,其计算公式为: p=(C 2 /P) 1/3 = (C·C/P) 1/3 即总被引次数与篇均被引次数之积的立方根,其中 C 是指某学者发表论文的总被引次数, P 是指论文数。 2011 年 , Prathap G 考虑多作者合作的问题提出了 “ 分数式 ” 计 量的 p 指数 (fractional p-indices) , 即 p f 指数 , 其计算公式为 : p f = (C f 2 /P f ) 1/3 = (C f .C f /P f ) 1/3 其中, C f = Σr i c i , P f =Σr i , a i 是第 i 篇论文的作者合作度, r i 表示赋予作者的荣誉的份额 ( 分数 )r i =1/a i 。 3.2 考虑主要贡献作者 持有该观点的学者认为,在计算h指数时,只纳入该作者作为主要贡献作者的论文,代表人物为 Hu XJ 与 Hirsh JE 。 Hu XJ 等人提出了基于作者角色的 h 指数以及只考虑作为主要贡献作者论文的 h maj 指数; Hirsh JE 则从另外一个角度提出了只考虑该作者作为主要贡献作者论文的 ` h 指数。 3.2.1 基于作者角色的 h 指数 在目前基金资助的科学研究中 , 首席科学家 (principal investigators, PI) 在一个独立的研究团队中起着主导作用。他们负责整个研究团队的方向,设计研究路线,分配科研任务,指导进行实验,并审核所产出的学术论文的逻辑性。因此,他们通常是整个研究团队中最重要的角色并通常担任多作者合作论文的通讯作者。然而他们通常并不直接参与一项具体的实验。每一个课题都被分配给一位负责人且在相关的论文中担任第一作者,其他对整个科研项目有较小贡献的参与者在论文中被署为合作者。有时在一个大的项目中,需要几位负责人在科研中都要起到核心作用,因此平行产生的一系列学术论文由这几位负责人轮流担任第一作者,有时轮流担任通讯作者。因此,通讯作者、第一作者和合作者在研究中所起的作用截然不同 。但是,这一现象还没有在作者合作视角下的 h 指数的讨论与研究中受到学者的关注。 目前,在生物医学领域的论文中,经常可以看到关于 “前两个(或三个甚至多个)作者对于本论文有同样的贡献”,导致了“同为第一作者”的现象 。当几个大的科研项目集体攻关某一科学问题时,产出的论文也可能有多个通讯作者。为此, Xiaojun Hu 、 Ronald Rousseau 和 Jin Chen 认为 h 指数应有 4 种类型,即: ①考虑某作者所有论文的广泛意义上的 h 指数; ②作为第一作者 h 指数; ③作为通讯作者 h 指数; ④仅作为参与者 h 指数。 这 4 种 h 指数称为基于角色的 h 指数 (role-based h-indices) 。这种思想在第一作者数或通讯作者数日益增多的生物医学领域比较适用。但是在很多情况下,第一作者往往也作为通讯作者,将两者合称为主要贡献作者,提出了 h maj 指数,该指数在计算时只考虑作为通讯作者和第一作者的论文 。 3.2.2 ` h 指数 Hirsh JE 在提出 h 指数时就指出其缺陷之一就是没有考虑到多作者合作,但同时指出新设计的指标又不能挫伤作者合作的积极性。为此,他在 2010 年又提出了 ` h 指数( h-bar-index )。其计算方法为:将某作者的论文按被引次数从大到小排列,然后将每篇论文的合作者的 h 指数与该论文的被引次数作比较,若至少有一个作者的 h 指数大于该论文的被引次数,则认为该论文的被引次数是由该作者的合作者所贡献的,删除该论文,并将后面的论文序号依次提升。依次进行,直到某篇论文的序号大于被引次数,且符合 ` h 的要求为止。 ` h 指数是由合著者 h 指数及论文被引次数两个值所决定的,即 ` h 指数是动态的 。与 h maj 指数类似,该指数只考虑那些除作者本人外,所有合作者的 h 指数均小于该论文被引次数的论文。 3.3 计算合作者权重 以上方法或指标都是对所有的合作者平均分配荣誉或者只考虑主要贡献作者的方法,在一定程度上影响了作者合作的积极性。为此又有学者提出了根据作者的排序 (rank) 计算合作者权重的观点。其中, Sekercioglu 在 Science 上撰文提出基于作者排序的第 k 个作者是第一作者贡献率的 1/k 的计量方法 。 Hagen 在 2008 年提出了一种基于作者排序和合作作者数目的荣誉分配方法,以减少将荣誉归于全部作者以及平分到每个作者带来的一种通胀式或平均式的偏倚 (inflationary bias or an equalising bias) 。他提出,在一篇合作度为 N 的论文中,第 i 个作者的荣誉 i th author credit =(1/i) / (1 +(1/2) +…+(1/N)) 。此外还有 p h 指数和 w 指数。 3.3.1 p h 指数 Prathap G 在提出 “ 分数式 ” 计 量的 p 指数时 , 也提出了 “ 调和式 ” 计量的 p 指数 (harmonic p-indices) , 即 p h 指数 , 其计算公式为 : P h = (C h 2 /P h ) 1/3 = (C h ·C h /P h ) 1/3 其中, C h = Σr i c i , P h =Σr i , a i 是第 i 篇论文的作者合作度, r i 表示赋予作者的荣誉的分数 r i =1/a i 。第 j 个作者的荣誉为: r i =(1/j)/(1 +(1/2) +…+(1/a i )) ,其中 C h =Σr i c i , P h =Σr i 3.3.2 h p 指数 Wan JK 、 Hua PH 和 Rousseau R 于 2007 年提出了纯 h 指数 (pure h-index , hp 指数 ) 的概念 , 用以评估既定作者的纯粹的贡献 。其具体计算方法为: 其中 E(A) 表示 A 作者纳入 h 指数的论文的篇均等效合作度,其计算公式为: N E (A,D) 表示作者 A 所在的论文 D 的等效合作度 ( the equivalent number of co-authors of author A in document D ) 。 A 为作者, D 为论文, R 为作者 A 在论文 D 的作者列表中的排名位次, N 为论文 D 的作者总数(即合作度)。等效合作度的计算分几种情况: ① “分数式”计 量,该方法将所有作者的荣誉平均分配,即等效合作度等于实际的合作度; ② “ 比例式 “ 计 量 ( proportional counting ): N E (A,D) =(N(N+1))/(2(N+1-R)) ; ③ “ 几何式 “ 计 量 ( geometric counting ): N E (A,D) =(2 N-1 )/(2 N-R ) 。 该指标也可扩展到作者发表的所有论文(而不仅仅是那些被纳入 h 指数的论文),即修正的纯 h 指数 。 3.3.3 w 指数 CT Zhang ( 张春霆 ) 院士提出了一种计算合作者权重系数的方法以及一个新的指数 , w 指数 (weighted h-index , 加权 h 指数 ) 。一名作者的带权引用次数为论文的引用次数乘以作者权重系数。他提出两项原则来计算作者权重系数。①荣誉三分原则:将一篇论文所获得的荣誉等分为 3 份。作为项目负责人的通讯作者和主要完成人的第一作者的权重系数均为 l ,其他作者的权重系数的总和为 l 。②线性原则:除通讯作者和第一作者外,其余作者所分得的荣誉按其作者排列顺序以等差级数递减。对一篇论文,第一作者和通讯作者的权重引用次数与论文引用次数相同。其他作者的权重引用次数随排名位置递减 。为了给权重系数的计算提供方便,笔者建立了一个网站,免费提供权重系数和权重引用次数的在线计算,详见: http://www.wcitation.org/ 。 表 1 作者合作视角下 h 指数的主要计量方法 主要 观点 指标名称 代表人物及其提出年份 计量方法 优势与 不足 均分作者荣誉 h I 指数 Batista,2006 作者的传统 h 指数值除以该作者纳入 h 指数的论文的平均作者合作度 计算方便,但未考虑作者不同的贡献度 h a 指数 ( adapted pure h-index) Chai et al. 2008 论文的被引次数除以论文作者数的平方根 h m 指数 Schreiber,2008,2010; Egghe,2008; 每篇论文作者合作度的倒数乘以论文数或被引次数,对论文数或被引次数进行 “ 分数式计量 ” ,适用于各篇论文被引次数差异较小的作者 p f 指数 Prathap G,2011 p f = (C f 2 /P f ) 1/3 = (C f ·C f /P f ) 1/3 C f = Σr i c i , P f =Σr i , a i 是第 i 篇论文的作者合作度, r i 表示赋予作者的荣誉份额分数 r i =1/a i 考虑主要贡献作者 基于角色的 h 指数 (Role- based h-index) Hu XJ 、 Rousseau R 、 Chen J,2010 h 指数有 4 种类型,即考虑某作者所有论文的广泛意义上的 h 指数;作为第一作者 h 指数;作为通讯作者 h 指数;仅作为参与者的 h 指数 计算方便, 但在一定程度上影响了作者合作的积极性 h maj 指数 只纳入作为第一作者和通讯作者的论文 ` h 指数 ( h-bar-index) Hirsh,2010 由合作者 h 指数及论文被引次数两个值决定,只考虑那些除作者本人外,所有合作者的 h 指数均小于该论文被引次数的论文。该指数适用于那些学术上比较资深的合作者。 思路独特而巧妙,但计算比较复杂,需计算所有合作者的h指数 计算合作者权重 — Hagen,2008 在一篇合作度为 N 的论文中 , 第 i 个作者的荣誉为 i th author credit=(1/i)/(1+(1/2) +…+(1/N)) 只根据作者的排序进行权重赋值,但未考虑到通讯作者的贡献度 p h 指数 Prathap G, 2011 p h = (C h 2 /P h ) 1/3 = (C h .C h /P h ) 1/3 , 其中 , C h = Σr i c i , P h =Σr i , a i 是第 i 篇论文的作者合作度, r i 表示赋予作者的荣誉份额分数 r i =1/a i 。 a i 为作者合作度 , 第 j 个作者的荣誉为 : r i =(1/j)/(1 +(1/2) +…+(1/a i )) , 其中 C h =Σr i c i , P h =Σr i 。 — Sekercioglu, 2008 基于作者排序( rank )的第 k 个作者是第一作者贡献率的 1/k 的计量方法 纯 h 指数 Wan JK 、 Hua PH 、 Rousseau R,2007 某作者传统 h 指数值除以该作者纳入 h 指数的论文的 “ 篇均等效合作度 ” 的平方根。 “ 篇均等效合作度 ” 计算分几种情况,未明确具体方法 w 指数 CT Zhang, 2009 w 指数( weighted h-index ,加权 h 指数):一名作者的带权引用次数为论文的引用次数乘以作者权重系数。 考虑较全面,作者建立了网站,计算较方便 Positionally Weighted h-indices, A. M. Abbas, 2011 基于作者排序( Position )的 h 指数, w j =2(k-j+1) / (k(k+1)) , k 为文章著者数, j 为某著者的位次, 1=j=k , 0=w j =1 未考虑通讯作者的贡献 注:— 表示未明确提出新的指标,只是一种计量方法。 4 结语 合作关系是作者学术关系的重要内容,作者合作研究成果的学术荣誉分配问题历来是学术界关注的话题。 h 指数、 g 指数等评价指标的出现又为这一传统话题的讨论增加了新的内容。 科学的进步促进了合作,合作的出现又使得记录科技成果的主要载体——科技文献中合著现象大量涌现。 在合作论文日益增多和论文作者合作度不断升高的 “大科学”时代 背景下 ,如何合理地确定每个合作者的贡献程度,如何选择更为科学合理的计量方法,是摆在所有从事科学评价和科研管理人员面前的一个现实而紧迫的课题。 从国际上针对 h 指数的诸多缺陷而开展的相关研究的趋势来看,改进作者被引次数的计量方法,合理评估合作者的贡献度是科学评价其学术影响力的关键因素与重要内容。 对于合作者贡献的定量化研究能够激励合作者在论文中澄清每位作者的贡献比例,有助于建立合作的意义与作者排序的良性关联,有助于在科研评价中科学、合理地评估合作者的贡献度。 本研究将作者合作关系作为科研人员学术影响力评价中应考虑的重要因素,针对目前未考虑多作者合作而出现的作者“引用次数泡沫”的现象,在理论方面对现有的不同学者对作者合作视角 下的被引次数、 h 指数、 g 指数等指 标开展的修正研究的主要思想和具体的计量方法进行了归纳与比较分析:“均分作者荣誉”、“考虑主要贡献作者”和“计算和作者权重” 3 种观点各有优势与不足。具体处理方法的应用可能还要结合不同的合作度与合作模式。本研究的下一步将对我们医学领域不同学科 SCI 论文作者合作度的分布规律以及不同的合作模式对论文被引次数的影响进行分析,以期揭示这 3 种观点在评价国内学者的国际影响力时的具体适用条件。并通过实证研究选择更为科学合理的评估合作者贡献度的计量方法,以对科研人员的学术表现进行更加客观、公正的评价。 参考文献 Wuchty S, Jones BF, Uzzi B. The increasing dominance of teams in production of knowledge . Science,2007, 316(5827): 1036–1039. Greene M. The demise of the lone author . NATURE,2007,450(7173): 1165-1165 J.E Hirsch.An index to quantify an individual’s scientific research output that takes into account the effect of multiple coauthorship .Scientometrics,2010,85(3):741-754. 周春雷 .h 指数合作式注水缺陷与对策 . 图书情报知识 ,2009(5):109-112 谢彩霞 . 国际科学合作研究状况综述 . 科研管理 ,2008,29(3):179-186. M. Smith.The trend toward multiple authorship in psychology . The American Psychologist, 1958,13(10):596–599. D.J. de Solla Price. Little Science, Big Science . Columbia University Press, New York, 1963. 蒋颖 , 金碧辉 , 刘筱敏 . 期刊论文的作者合作度与合作作者的自引分析 . 图书情报工作 ,2000, 43(12):23-28. B. Cronin. Hyperauthorship: a postmodern perversion or evidence of a structural shift in scholarly communication practices . Journal of the American Society for Information Science and Technology,2001, 52(4):558–569. H. Kretschmer,R. Rousseau. Author inflation leads to a breakdown of Lotka’s law .Journal of the American Society for Information Science and Technology,2001,52(5):610–614. J.P. Birnholtz, What does it mean to be an author? The intersection of credit, contribution, and collaboration in science .Journal of the American Society for Information Science and Technology 2006,57(13):1758–1770. Claxton LD. Scientific authorship. Part 2. History, recurring issues, practices, and guidelines Mutat Res. 2005 ,589(1):31-45. Hirsch JE. An index to quantify an individual’s scientific research output . Proc Natl Acad Sci,2005, 102(46): 16569-72. Batista PD, Campiteli MG, Kinouchi O,et al. Is it possible to compare researchers with Different scientific interests? .Scientometrics,2006,68(1):179–189. Schreiber M. A modification of the h-index: the hm-index accounts for multi-authored manuscripts .Journal of Informetrics,2008,2(3):211–216. Schreiber M. To share the fame in a fair way, hm modifies h for multi-authored manuscripts . New Journal of Physics,2008,10(4):211–216. Schreiber M. A case study of the modified Hirsch index hm accounting for multiple coauthors .Journal of the American Society for Information Science and Technology, 2009,60(6):1274–1282. Egghe L. Mathematical theory of the h-index and g-index in case of fractional counting of authorship .Journal of the American Society for Information Science and Technology, 2008,59(12):1608–1616. Prathap, G. Is there a place for a mock h-index . Scientometrics,2009,84(1): 153-165 Egghe L. Theory and practise of the g-index . Scientometrics,2006,69(1):131-152. Prathap G. The fractional and harmonic p-indices for multiple authorship . Scientometrics,2011,86(2):239-244 Xiaojun Hu,Ronald Rousseau,Jin Chen.In those fields where multiple authorship is the rule,the h-index should be supplemented by role-based h-indices .Journal of Information Science,2010,36(1):73-85. J.E Hirsch.An index to quantify an individual’s scientific research output that takes into account the effect of multiple coauthorship.Scientometrics,2010,85(3):741-754. Sekercioglu CH. Quantifying coauthor contributions . Science,2008,322(5900):371. N.T. Hagen. Harmonic allocation of authorship credit: source-level correction of bibliometric bias assures accurate publication and citation analysis . PLoS ONE,2008,3(12):e4021. Prathap G. The fractional and harmonic p-indices for multiple authorship . Scientometrics, 2011,86(2):239-244 Wan JK, Hua PH, Rousseau R.The pure h-index: calculating an author’s h-index by taking co-authors into account .COLLNET Journal of Scientometrics and Information Management, 2007,1(2):1–5. J.C.Chai, P.H.Hua, R.Rousseau and J.K.Wan, The adapted pure h-index.In: H.Kretschmer and F.Havemann(eds), Proceedings of WIS 2008, Berlin. Fourth International Conference onWebometrics, Informetrics and Scientometrics and Ninth COLLNET Meeting. Open access. Available at: www. collnet. de/ Berlin-2008/ Chai WIS2008aph.pdf (accessed 25 March 2011). Zhang C T. A proposal for calculating weighted citations based on author rank .EMBO Reports, 2009,10(5):416–417. 张春霆 . 如何评价一名科研人员的学术表现 ?—— 关于论文引用次数泡沫问题及解决方案 . 科技导报 ,2009,27(10):1.
作为国家自然基金项目“ h 指数和类 h 指数的机理分析与实证研究”结题成果,国内第一本、也是国际第一部关于 h 指数的专著已于 2011 年 3 月正式出版,该专著汇集了课题组已有研究、集成了国内外在 h 指数和 h 型指数研究方面的主要进展,并强调用任何单一参数评价学术均有片面性,详见:叶鹰 ; 唐健辉 ; 赵星等著《 h 指数与 h 型指数研究》,科学出版社, 2011 。 如今几乎每个月均有关于 h 指数研究的论文发表,作为阶段性总结,本专著内容和观点可供学界参考 …
h 指数于 2005 年被发现后,很快成为学术热点。作为其理论解释,已有三种代表性静态数学模型,它们分别是 Hirsch 原始模型 , Egghe-Rousseau 模型 和 Glnzel-Schubert 模型 。历经数年探寻 ,发现 在 Heaps law 成立下 可以三式归一统,详见 Ye, F. Y. (2011). A unification of three models for the h-index. Journal of the American Society for Information Science and Technology , 62(1): 205–207 Refs.: Hirsch, J. E. An index to quantify an individual’s scientific research output. Proceedings of the National Academy of Sciences of the USA, 2005, 102(46): 16569-16572 Egghe, L.and Rousseau, R. An informetric model for the Hirsch-index. Scientometrics, 2006, 69(1): 121-129 Glnzel, W. On the h-index – A mathematical approach to a new measure of publication activity and citation impact. Scientometrics , 2006, 67(2): 315-321 Schubert, A. and Glnzel, W. A systematic analysis of Hirsch-type indices for journals. Journal of Informetrics, 2007, 1(2): 179-184 Ye, F. Y. An investigation on mathematical models of the h-index. Scientometrics , 2009, 81(2): 493-498
发文信息【周春雷.利用CSSCI研究h指数的方法及相关问题 .图书情报工作,2010(16):40-43.】 作者信息【 周春雷 郑州大学信息管理系,郑州450001】 针对 CSSCI仅提供分年度引文数据、不能直接用于h指数研究的不足,介绍了一种能实现跨年度引文信息合并的h指数统计方法来克服这一缺陷。最后指出利用CSSCI数据进行h指数研究值得关注的一些问题。 1 引言 众所周知,学术成就评价标准一直是学术界争论不休的话题。美国学者Hirsch(2005)教授提出的h指数 介绍了利用引文信息的新方法,能同时考察作者生产力和文章质量,提供了不同于发文量、总被引、期刊影响因子等传统文献计量指标的新视角,在国际上产生了深刻的影响。但很少有引文数据库直接支持精确的 h指数统计, 南京大学研制的 CSSCI也不例外。研究者需要对获得的引文数据进行二次处理才能得到相应的h指数,这给相关研究带来了很多不便。为此,本文以CSSCI为例介绍一套适合程序处理的h指数统计方法,并讨论了h指数研究值得关注的一些问题。 2 利用CSSCI数据研究h指数的方法 2.1 引文数据获取途径 CSSCI引文数据的获取可以通过两种途径:来源文献和被引文献。通过来源文献途径将CSSCI的各来源期刊参考文献汇集起来,然后再施以特定作者视角抽取,即可得到该作者的被引信息,最终得到作者h指数。但是,这种方法实践难度很大且具有明显的知识产权风险,因此本文仅介绍被引文献途径的利用方法。 被引检索结果的利用有两种办法:(1)复制浏览器分屏显示的检索结果并用自编程序处理。(2)勾选网页下方的选择所有选择框,点击下载按钮,将得到一个文本文件,其内容比浏览器呈现的结果更丰富。同理,需要将分屏得到的各文本文件合并,以得到全部被引信息。由于后一种方法涉及对引文数据库的多次查询,数据搜集速度明显慢于前一种方法,故本文主要基于前一种搜集方法进行介绍。 2.2 CSSCI 引文数据处理 众所周知,计算h指数的关键在于同一作者的同一篇文献在全部统计年度内被引次数的合并问题,但 CSSCI并未很好地解决引文数据合并问题和作者同名问题。 这些问题的存在,对统计作者真实h指数影响较大 。这些问题的成因是多方面的,有的并非h指数研究者所能改变,需要多方努力才能解决。因此,本文重点关注引文数据合并问题。 观察来自 CSSCI的数据可以发现,作者、被引文献篇名、被引期刊、被引次数等信息被相同的分割符号隔开,如果使用程序将这些信息分离并将同一作者的同一被引文献的数据合并在一起,再按照总被引次数降序排列即可获得该作者的h指数。 ( 1)将CSSCI数据整理为EXCEL格式 以下代码的功能是将 CSSCI数据整理为EXCEL格式,同时给每条被引数据附加年度信息。listbox3的内容是从CSSCI获取的数据,ss用来存储年度信息。最后一句代码通过替换分割符实现CSSCI数据到EXCEL格式的转换。 for i:=0 to listbox3.Items.Count-1 do begin iflength(listbox3.Items )5 then continue; if (pos(' 以下是: ',listbox3.Items )0) then ss:=copy(listbox3.Items ,9,4); if (pos(' 以下是: ',listbox3.Items )0) or (listbox3.Items ='') or(pos('序号 被引作者 被引文献篇名 ',listbox3.Items )0)then j:=1 else memo1.Lines.Add(ss+#9+listbox3.Items ); end; memo1.text:=stringreplace(memo1.Text,' ',#9, ); ( 2)规范篇名数据 引文数据不规范问题虽非 h指数研究者所能完全解决,但我们可以通过篇名数据规范化消除一些明显的人为失误,如英文单词大小写不统一、 引号、破折号不统一等。 2.3 h 指数统计过程 ( 1)提取篇名和被引数据 通过对每条被引数据实施列转行,提取出篇名和被引数据,代码从略。 ( 2)累加同一文献的被引数据 根据篇名聚类就是根据篇名列排序,累加同一文献被引数据,代码从略。 ( 3)提取h指数 将某作者的全部论文按被引次数降序排列,然后利用笔者在文献 中介绍的提取h指数算法即可得到相应的h指数。 利用本文介绍的这种方法,笔者实现了汇总某领域全部期刊被引信息并统计成千上万作者h指数信息的h指数批量统计法(LHEA) 。 3研究h指数时值得关注的问题 值得注意的是,h指数是与引文数据库高度相关的。国外学者Bar-Ilan 基于WOS、Scopus和Google Scholar等不同引文数据库测量同一作者h指数的实证研究也表明h指数会因引文数据库而异。以国内引文数据库为例,由于收录文献类型、时间段、合作成果被引分配等差异,基于CNKI的h指数要普遍高于CSSCI。 除了前文所述的引文数据年度分段问题和引文数据不规范问题外,还有以下问题会影响h指数的大小,因此值得研究者给予特别关注。 (1)时间问题 h指数本为评价作者终身学术成就之用,从理论上说需要完整收集作者所发文章的被引数据。但是,计算h指数一般都要依托某个引文数据库进行,而引文数据库都有一定的引文回溯时间段,对超出引文数据库覆盖范围的作者来说,其h指数可能会受到时间段长度的影响。换言之,按作者终身被引数据和某个时间段内的被引数据所计算出的h指数是有很大差别的。值得注意的是,CSSCI中仅有1998年后的数据,因此对1998年以前即开始学术生涯的作者来说,其h指数可能在某种程度上被低估了。 h指数的时间问题一直是学术界关注的重要内容。为了解决h指数与科学家学术生涯的关联问题,Hirsch(2005) 根据科学家从事学术生涯的年份对h指数进行划分,提出了线性增长模型。梁立明(2006) 提出了h序列和h矩阵的概念试图使原本处于不同科研阶段的科学家变得可以相互比较。金碧辉(2007) 考虑了论文发表年龄,提出了AR指数。Burrell(2007) 则提出利用h速率评价科研人员的学术成绩。相信这些概念和指标对我们理解时间因素在h指数评价中的重要性会有很多启发。 (2)收录范围问题 截至2008年,CSSCI的来源刊物仅限于国内19个学科分类528种社会科学方面的中文期刊,其1998-2007年的来源文献累积起来近80万篇,引文记录500余万条 。与国外成熟引文数据库来源期刊数以千计的规模相比小了许多。虽然规模较小,但CSSCI还是有自己的特色,其文献类型的丰富性值得肯定。与WoS数据库仅收录期刊类型被引信息不同,CSSCI在收录文献类型方面要广泛得多,它不仅收录来源文献记录的期刊被引信息,而且收录书籍、网络文献等的被引信息。 引文数据库的规模和收录文献类型的广泛程度对h指数的影响较大。在h指数实证研究中,该问题对不同学科的影响存在很大差异。如果只考虑期刊论文的被引情况,一些文科类学者的h指数会偏低,因为很多本应进入作者h核的非期刊类型的文献被忽略了。以历史学为例,除期刊论文外,专著也是该学科的重要学术交流方式。因此,我们在h指数分学科实证研究中应注意类似问题。 (3)作者唯一标识问题 Rousseau(2008)将因作者名称问题引起的h指数统计误差称为h指数精度问题 。该问题在各引文数据库中普遍存在,一些大的引文数据库采取了各种措施试图解决它。但到目前为止,尚无完美解决方案,精度问题依然是制约h指数研究的瓶颈。 作者重名问题是导致h指数精度问题的重要原因,引文统计平台需要解决作者重名问题,否则可能导致作者h指数虚增。笔者认为,作者h指数之所以被夸大,很重要的一个原因在于来自不同领域的同名者的被引信息混杂在一起 ,我们可以通过将被引文献限制在领域专业期刊等方法利用学者研究领域的差异来区分同名作者。基于这种思路,笔者提出了h指数批量统计法 ,但该方法对解决h指数精度问题也有一定的局限性:如果同名作者的研究领域相近或处于同一领域就很难区分了。 很多研究者认为对作者进行唯一性标识是解决h指数精度问题的根本办法,这就需要引文数据库采取特殊的方法为每个作者赋予独特的标识。笔者认为,作者唯一标识问题看似简单,实则牵涉很多因素,对学术评价也会有很大影响,因此将是一项影响深远的系统工程。它不仅应引起CSSCI等国内引文数据库的重视,而且值得学术界展开深入的研究。 (4)合作者成果分配问题 合作学术成果的学术荣誉分配问题历来是学术界关注的话题,早在1973年,科尔兄弟就提出荣誉全归第一作者的建议。此后有学者建议将被引荣誉重复赋予每个作者,还有学者建议按不同的权重赋予不同的作者,使每个人或公平或有差别地分得某种分数形式的荣誉。h指数评价方式的兴起为这一传统话题的讨论增加了新的内容,为降低多作者因素对 h指数有效性的影响,学者们根据各种分配思路提出了不同的改进型h指数指标,如 Batista等 (2006) 提出了 h I 指数 ;Wan,JK、Hua PH和Rousseau R (2007)提出Hp指数 ;Schreiber(2008)提出hm指数 ;周春雷(2009)提出按合作者人数均分被引次数的h-a指数 。 CSSCI的引文数据是按第一作者来分配的,但合作在科研论文生产中非常普遍的,如果合作文章的被引数据全归于第一作者,对其它作者是否公平呢?有的数据库,如CNKI,将引文数据重复分配给每个合作者,但这样是否又夸大了每个作者的贡献呢?面对不同引文数据库的不同处理方式和多种合作成果分配建议,我们该何去何从呢? (5)自引问题 自引是非常普遍的引文现象,其中既有保障正常学术研究得以延续等客观需要,也有非学术性引用。自引可能会增大作者、期刊的h指数,引用有高度针对性的h指数精确注水 式自引更是如此。方舟子(2006)认为大量自引可以显著改变h指数 ,他举了一个典型例子,如果排除自引,被新语丝多次曝光的国内某教授的h指数会由14变为6。Schreiber(2007) 也研究了h指数与自引之间的关系。 CSSCI具有排除自引功能,这在一定程度上方便了研究者。但由于CSSCI仅记录了第一作者的被引信息,如果我们想研究更严格的排除自引,如排除第二作者、第三作者甚至全部作者的引用,CSSCI就难以胜任了。 (6)计量单位问题 作者被引文献的数量制约着h指数的增长上限,同时单篇文献的被引次数又决定了h指数的下限,因此,作者所发表文献的计量单位就成为很重要的问题。这个涉及到成果通过多种途径重复发表和拆分发表问题。 重复发表有两种情况,其一是文章在期刊上发表后被文摘刊物转载或在网络上出现,施引者可能通过原始期刊、文摘刊物、网站等不同途径接触被引文献,因此其著录的参考文献中尽管篇名相同但来源却有所不同;其二是作者主动或被动地导致了同一文献在不同期刊上重复发表。这些来源不同的文献是作为同一篇文献来累计被引还是作为不同文献分别计算被引呢?拆分发表是指源于同一著作的内容被分拆以连载或稍加变化的形式发表在期刊上的情况。这些被拆分发表的文献,在计算的时候是作为不同的文献呢还是作为相同的文献?远高于h指数的单篇文献的被引数据也只作为一个h指数计量单位是否会让作者有不公平的感觉?这些问题值得h指数研究者认真思考。 对于某些著作很少,但总被引很高的作者来说,如果将超高被引的文献拆分为多个文献来计量,其h指数将有明显变化。以仅留下一部经典著作《道德经》的作者老子为例,笔者2008年3月11日检索时其总被引次数为1198次,如果将《道德经》整体作为一个计量单元的话,老子的h指数显然只能是1。但是,CSSCI中也有很多明确标注引用该书某一章节的引文,如果以章节为计量单位,老子的h指数显然可以有很大提升。换言之,文献如被拆分发表虽会导致单篇文献的被引数降低却能增加可计量数量,从而可能导致h指数的增长。反之,即使连载或拆分文献的单独被引数都远低于作者的h指数,但合并起来却可能对h指数的增长作出贡献。因此,作者h指数的这种变化完全取决于研究者对计量单位的界定。对于这种计量单位问题,h指数并没有给出明确规定。 笔者认为,h指数计量单位问题也取决于作者自己的学术道路规划。合并发表虽然减少了总发文数,却凝聚了单篇被引数,从而为该作者h指数的上涨开辟了广阔的空间,使其不至于因缺少一两个被引卡在低层h指数上;相反,香肠论文式的拆分发表,虽能在短期内迅速拉长作者的被引文献列表,对低层h指数的增长有明显的作用,但由于分散了单篇文献的被引次数,使其难以随着作者学术影响力的提升进入高层h指数的h核内。h指数的这一特点也许可以引导广大有实力的作者树立远大学术抱负,努力增加单篇文献的价值含量,而不去走为追求发文数量而拆分发表的捷径。 4 结语 综上所述,本文提出了一种利用CSSCI引文数据统计h指数的方法,并给出了关键代码,继而讨论了利用CSSCI数据研究h指数时应关注的一些问题,如时间、收录范围、作者唯一标识、合作者成果分配、自引、计量单位等问题。这些问题具有一定的普遍性,不仅与特定数据库有关,而且与h指数方法本身有关。希望本文的探讨能引起学界对相关问题的关注,为h指数的发展和完善做出积极贡献。 参考文献: Hirsch J. An index to quantify an individual's scientific research output. Proceedings of the National Academy of Sciences of the United States of America,2005,102(46):16569-16572. 邱均平,周春雷.发文量和h指数结合的高影响力作者评选方法研究.图书馆论坛,2008(6):44-49. 周春雷.h指数批量统计法及其应用研究.情报学报,2010(1):100-107. Bar-Ilan J. Which h-indices? A comparison of WoS, Scopus and Google Scholar.Scientometrics,2008,74(2):257-271. Liang L. h-index sequence and h-index matrix:Constructions and applications.Scientometrics,2006,69(1):153159. Burrell Q.Hirsch index or Hirsch rate?Some thoughts arising from Liang's data.Scientometrics,2007,73(1):19-28. 金碧辉,Rousseau R. R指数、AR指数:h指数功能扩展的补充指标.科学观察,2007(3):1-8. 中文社会科学引文索引(CSSCI)简介. .http://202.119.47.137/introduce.htm. Rousseau R. Reflections on recent developments of the h-index and h-type indices.COLLNET Journal of Scientometrics and Information Management,2008,2(1):1-8. 周春雷.基于h指数的核心作者遴选方法的比较研究.中国科技资源导刊,2009(1):46-51. Batista PD, Campiteli MG, Kinouchi O, et al.. Is it possible to compare researchers with different scientific interests?.Scientometrics,2006,68(1):179-189. Wan JK, Hua PH, Rousseau R. The pure h-index : calculating an author s h-index by taking co-authors into account. COLLNET Journal of Scientometrics and Information Management, 2007,1(2):1-5. Schreiber M. To share the fame in a fair way, hm modifies h for multi-authored manuscripts.New Journal of Physics, 2008(10):040201. 周春雷.h指数合作式注水缺陷与对策.图书情报知识,2009(3):109-112. 周春雷.h指数的潜在缺陷h指数精确注水问题研究.图书情报工作,2008(8):112-114. 方舟子.h指数:一种新的学术评价方法.同舟共进,2006(5):9-10.