博文

连续、动态和复合的单篇论文评价体系构建研究

已有 7908 次阅读 2015-5-8 10:03 |个人分类:论文|系统分类:论文交流|关键词:学者| 学术影响, 评价体系, 单篇论文评价, 评价数据库, 动态评价

连续、动态和复合的单篇论文评价体系构建研究

王贤文，方志超，王虹茵

（大连理工大学科学学与科技管理研究所 WISE实验室，辽宁大连116024）

摘要：当前的科学论文评价主要建立在核心期刊的选择和期刊评价体系之上，但是现有的评价机制正逐渐暴露出滞后性、片面性等弊端。随着信息计量技术的发展和数字图书馆的兴盛，单篇论文评价指标逐渐丰富，构建单篇论文评价体系的资源和技术条件已经具备。通过对现行期刊评价体系积弊的分析，论证了构建单篇论文评价体系的必要性；通过对单篇论文评价体系运作原理的解释，以及实证研究，论证了构建单篇论文评价体系的可行性。我们认为，被引次数适合对论文的长期学术影响力进行评价，期刊影响因子只适合评价期刊而非单篇论文，altmetrics适合对论文的社会影响力进行快速评价。如果把这些指标综合起来，建立一种连读、动态和复合的单篇论文评价体系及数据库，将会使对科学论文的评价更加全面合理，为学术评价提供一种崭新的思路。

关键词：单篇论文评价；评价体系；评价数据库；动态评价；学术影响；社会影响

引文评价和期刊评价体系，是当前科学论文评价的主流方法；被引次数与期刊影响因子则是这一体系之下使用最为普遍、接受程度最高的两个评价指标。长久以来，被引次数在衡量一篇科学论文的影响力方面具有很强的权威性，也是评估科研人员绩效的最重要手段。期刊影响因子则在科学论文尚未积累足够被引次数的情况下，补充性地担当着衡量新发表论文潜在影响力的重任。二者在学术界共同构筑起了根基深厚、影响广泛的学术评价体系。甚或，在被引次数和期刊影响因子之外，在一些国家还发展出Web of Science（SCI/SSCI）收录与否这一评价概念。SCI/SSCI收录同样也是基于核心期刊遴选的结果。

然而，随着信息计量技术的发展、论文全方位评价指标的丰富、数字图书馆的蓬勃兴盛和科学文献出版行业的变革，现有的基于核心期刊遴选和期刊评价体系暴露出一系列的局限性。被引次数虽然在评价论文学术影响力方面独领风骚，但面对伴随着网络社交新媒体的兴起而突现的论文社会影响力评价需求则无能为力。不仅如此，被引次数的时间滞后性还使其无法对新发表的论文做出有效的评价。因此，现有的科技成果评价体系应当做出改变以适应科学计量学的发展潮流、满足科学共同体对于更加全面完善的评价体系的迫切需要。

我们认为，对于学术论文评价来说，开展单篇论文综合评价是相对于单一被引次数评价和期刊影响因子评价更好的选择。目前对于单篇论文评价的研究主要集中在单篇论文评价指标方面，包括提出并推广诸如Altmetrics系列指标等新型单篇论文评价指标^[1]、挖掘当前普遍使用的单篇论文评价指标的数据变化规律和适用范围^[2,3]、对多项单篇论文评价指标进行相关性分析以验证其有效性^[4]等等。伴随着单篇论文评价指标研究的深入，有学者开始反思期刊评价体系在为研究者遴选值得阅读的高水平论文方面的效力，特别是对用期刊影响因子来概括一篇论文的质量这一传统的做法产生了质疑，并且在总结了多项单篇论文评价指标优点与缺陷的基础上，提出了将论文评价的基本单元由期刊层面过渡到单篇论文本身的主张^[5]。日益丰富的单篇论文评价指标带来了海量的数据，同时也带来了数据爆炸所必然造成的困境，如何挖掘这些评价数据的真实内涵、如何恰当地使用这些数据以及如何有效组织数据以形成一个可靠的评价结构，成为了有待解决的新问题^[6]。系统化多项评价指标进而构建一个内部能够顺畅调理复杂数据的体系，是解决这类问题的一种有效手段。曾有学者利用这种手段构建了大学教师职称晋升的综合评价和决策模型^[7]。而在论文评价方面，尽管有学者提出过将传统引用指标和Altmetrics指标相结合以覆盖长期和短期影响力评价的构想^[8]，但是尚未有研究成果将多项评价指标进行系统综合、成功构建出颠覆期刊评价体系的单篇论文评价体系，更没有进一步将单篇论文评价体系运用于具体论文评价的实践。

近年来涌现的绝大部分论文评价指标，无论是学术影响力评价指标还是社会影响评价指标，其立足的根本、着眼的对象都是单篇论文。不同类型单篇论文评价指标愈发丰富并且影响力日益提升，越来越多的学术出版商开始公开提供单篇论文评价指标的详细数据。同时，科学文献出版行业的变革，特别是如PLoS ONE、Scientific Reports等打破传统期刊限制的开放获取平台的出现，也真正意义上让单篇论文成为评价的基本单元。这一切都标志着构建单篇论文评价体系的时机已经逐渐成熟，单篇论文评价体系已然具备了诞生的资源和技术条件。

1 建立在期刊评价基础上的论文评价体系的积弊

1.1 对论文社会影响力评价的忽视

由于科学论文最主要的读者是科学共同体内部人员，所以论文的学术影响力评价指标在整个评价体系中占据着最重要的地位。而被引次数作为最权威且使用最广泛的学术影响力评价指标，就像王冠上的明珠一般，必不可少、弥足珍贵。因此在论文影响力评价方面的研究中，研究主题主要集中在引用次数上^[9]。但是随着网络社交媒体日新月异的蓬勃发展，科学借助新媒体平台逐渐走入社会公众的视野，仅仅依靠学术影响力来度量一篇论文的质量已经不够充分，一批社会影响力度量指标开始萌发兴起，例如Altmetrics的提出引起了全球学术界的强烈关注。

被传统期刊评价体系忽视的论文社会影响力评价领域，可以被Altmetrics系列指标所覆盖。科学技术给人类社会带来的深远影响使得社会公众对于科技发展的关注度越来越高，每个个体，包括论文作者自身都可以成为科学研究成果的传播者和普及者。在此情形下，社会公众已经不再是科学的局外人，论文的社会影响力必将成为衡量科研成果价值的另一个重要的方面。论文被媒体报道、社交媒体的热烈讨论等都是社会影响力的体现。对于有些学科，尤其是社会科学的论文来说，成果所产生的社会影响力不容忽视，甚至比被引次数还重要。期刊评价体系对于论文社会影响力评价的忽视，表明该体系已经不能完全跟上时代发展的步伐。

1.2 对新发表论文的潜在影响力缺乏评价手段

在一篇论文发表之后的大约两年时间里，论文的被引次数很少，远没有积累到足够做出准确评价的程度^[10]，被引次数的时间滞后性特征使得这一评价指标面对新发表的论文无法发挥作用。这就意味着，被引次数在评价论文的学术影响力方面，只能做出长期影响力的评价，而难以对新发表论文的潜在影响力做出准确的判断。这是当前的学术出版规则和流程导致的，因此只能寻求补充性的解决办法，用另一种指标替代被引次数进行短期影响力的评价。而期刊评价体系给出的替代性指标便是期刊影响因子。

期刊影响因子本质上是论文被引次数这一评价指标的拓展延伸，所以其诞生之初就被赋予了相对权威的学术影响力评价效力。又因为期刊影响因子不具有被引次数的特异性、单独性和频繁变动性，弥补了单篇论文被引次数滞后性的不足，因而期刊影响因子长久以来一直被视为被引次数的有效替代评价指标^[11]。基于期刊影响因子，期刊评价体系得以建立并盛行起来。对于新发表的论文来说，由于其没有被引次数的数据，便用其发表来源期刊的影响因子对其进行评价，这一做法被科学共同体普遍接受，并且已经成为了评价科研人员工作绩效的重要指标之一。但是，期刊影响因子的滥用引起了众多学者的批评^[12-16]。一方面，同时期发表于同一本期刊上的论文被用同一个影响因子来代表评价，忽视了论文质量的良莠不齐。另一方面，每年的期刊影响因子都不一样。论文刚发表时和发表几年后，所在期刊的影响因子可能会有较大幅度的变化。显而易见，期刊影响因子的变化不等同于论文学术价值的变化。因此，期刊影响因子只能算是对新发表论文的价值评估的一种权宜之计，它不仅不能准确地反映科学论文的学术影响力，反而往往高估或者低估了一篇论文的真实水平，其效度和信度暴露出诸多劣势。期刊评价体系之下，尚缺乏有效且可信的评价论文短期影响力的方法。

1.3 基于期刊评价的数据库收录原则存在诸多弊端

在期刊评价体系之下，以Web of Science为代表的数据库是以期刊为单位进行论文的收录。一篇论文无论其实际质量如何，只要发表在了一本Web of Science数据库收录的期刊上，就能在Web of Science这一致力于“发掘高影响力论文”的数据库中被检索到，这导致Web of Science数据库中充斥了大量零被引的论文（虽然并非所有零被引论文都是低质量论文，但是“睡美人”类型的零被引论文少之又少）。包括去年Nature推出的Nature Index也存在同样的问题。

高影响因子的期刊刊载的并不一定都是高水平的论文。在期刊编辑部的同行评审程序中，由期刊主编以及2-5位同行对投稿论文的研究质量进行评判，决定论文录用与否，难免会有部分低水平研究侥幸过关，混杂其中。

所以，绝对地以期刊为单元进行论文的收录遴选，不可避免地会将部分低质量的论文一并收录到数据库中。有些学术期刊甚至利用这一漏洞开展违反学术道德的营利活动，这样的结果违背了Web of Science数据库的初衷，因此有必要对造成这一局面的根基——期刊评价体系做出必要的调整。

2 单篇论文评价的时机已经成熟

2.1 社会影响力评价指标的兴起

社会影响力评价指标主要侧重于评价科学论文在多种类型的社会舆论媒体、网络社交媒体和网络学术工具上的影响力，最典型的代表便是Altmetric Score。Altmetrics^[17]这一概念甫一提出，很快就成为了科学计量学的研究热点，它作为论文社会影响力评价方法，弥补了被引次数等传统学术影响力评价指标的不足。 Altmetrics着眼于科学论文在舆论媒体、社交网络、网络学术工具等平台上的传播热议程度，网络传播速度快、范围广的特点避免了如学术引用一般的低速率、长周期。另有研究表明，一篇论文的部分Altmetrics计量指标得分，特别是Twitter mentions（推特讨论）与其被引次数之间有一定的正相关关系^[18-20]，因此Altmetric Score 被认为是能够对新发表论文做出快速评价的指标之一。但是，Altmetrics的各项计量指标得分与被引次数之间的相关关系也受到了众多学者的质疑^[21-23]。并且一篇论文之所以可以在社交网络上广泛传播，其原因更多的可能不在于它的学术价值，而在于它的新颖性、趣味性和话题性^[24]，所以侧重于社会影响力评价的Altmetrics能否有效进行学术影响力的评价还有待进一步研究。但是作为社会影响力评价手段，Altmetrics填补了以往评价体系的空白，前瞻性地开拓了论文社会影响力评价的研究领域，为科学计量学插上了网络信息计量技术的翅膀，拓宽了科学计量学的研究视域。

2.2 短期影响力评价指标的涌现

为了弥补被引次数在短期影响力评价方面的缺位，有学者开始尝试以被引次数为基础对评价方法进行延伸和变形。例如将一篇论文的被引次数和其参考文献数目做比较，将被引次数大于其参考文献数的论文定义为“成功论文”^[25]，或者是利用引用滞后的特点，将论文的首次被引时间距发表时间的长短作为评价的指标^[26,27]。但是这些评价指标的变形，立足点都默认了被引次数的滞后性事实，并不能弥补被引次数在评价短期影响力方面的缺陷。

随着网络信息计量技术的发展和电子期刊的普及，越来越多的学术出版商开始提供科学论文的被浏览次数和被下载次数等使用数据。相比于被引次数2年左右的时间滞后，论文的被浏览次数和被下载次数具有实时性的绝对优势；并且，大量的研究证明一篇论文的使用数据，特别是其被下载次数与其后来的被引次数之间有着明显的正相关关系^[28-30]，于是被浏览次数和被下载次数开始作为一种替代型评价指标，在一篇论文发表初期代替被引次数来进行学术影响力评价。但浏览数据和下载数据用于论文学术影响力评价也存在许多争议。相比于被引次数，它们在反映学术影响力的权威性方面显得不够，就连被下载次数与被引次数之间是否真的存在正相关关系也有质疑的声音^[31]。不过，以被浏览次数和被下载次数为代表的使用数据极大地缩短了论文评价所需的时间，将影响力评价的起始时间向前推进到了论文发表后的极短时期内。

3 构建单篇论文评价体系的必要性

不管是论文的学术影响力评价指标还是社会影响力评价指标，都有着自身的局限性，正是由于尚未出现一种足以全方位、无延迟进行论文评价工作的综合评价指标，导致为了弥补现有指标的缺陷而不断涌现出新的评价指标或改进方法，继而造成了目前评价指标臃肿冗杂的局面。日趋多样的评价指标不成系统地分散于论文发表后的各个阶段，何时、何种情况对不同的指标做出怎样的取舍，是对愈发庞杂的评价指标体系的一个严峻考验。需要明确的是，在当前的学术出版规则、论文写作规范、科学计量技术水平的条件下，不能寄希望于推出一种足以承担全部任务的单一评价指标。但是，现有的各项评价指标业已积累了丰硕的研究成果，它们的优劣长短、适用范围、时间效力等特征已经得到较为充分的论证和发掘，将现有各项评价指标进行综合的时机已经成熟。此外，电子期刊、数字图书馆和开放获取运动的蓬勃发展，使得每篇科学论文都可以实现单独的观测评价。在这种情况下，仍旧以整本期刊为评价单元，便丧失了提供一系列单篇论文评价指标数据的意义。所以，构建单篇论文评价体系将会是契合当今评价指标和学术出版行业发展趋势的研究方向。

3.1 社会影响力和学术影响力一样不容忽视

被引次数、SCI收录和期刊影响因子是整个科学共同体内部量化论文学术影响力的准绳，Altmetrics系列指标则是衡量论文社会影响力的标尺，二者各自为政，任意单一指标都无法全面反映论文的综合影响力水平。而构建单篇论文评价体系的设想，立足于至今已经积累起来的关于各项评价指标的丰硕研究成果，深入考量各项评价指标的特点及效力，力图调和多个代表性的学术影响力评价指标和社会影响力评价指标，融学术影响、社会影响于一炉，通过单个体系最大限度完整地呈现出一篇科学论文在科学共同体内部和社会公众两个层面的影响力状况。

3.2 短期影响力和长期影响力需要双重兼顾

被引次数测度的是论文的长期影响力，使用数据和Altmetrics数据更多地致力于反映论文的短期影响力。不同的评价指标数据不仅在评价长期或者短期影响力的侧重点上有所区别，甚至单个评价指标的数据量随时间变化的情况也不一而同，所以在使用某种影响力评价指标时，需要考虑当前的时间是否适用也要考虑该指标未来可能的变动，这将会导致对一篇论文进行评价需要持续跟踪多个指标的复杂困境。而单篇论文评价体系，在调和多项影响力评价指标的同时，将各项指标的最佳效力发挥时间、数据量的时间变化规律纳入体系框架内，统一了论文发表后的各个时间段使用何种指标数据以及不同指标数据所占权重的规则，通过单一评价体系兼顾了长期影响力和短期影响力的测度和评价。

3.3 评价结果的动态调整是更优解决方案

当今大部分评价指标在单独评价科学论文的影响力时都具有动态的特性，例如被引次数、被下载次数、AltmetricScore等指标都会随着时间的变化而发生变化。即使是长期没有积累被引次数或社交传播次数的论文也有着变动的潜力和预期，这些评价指标的价值也正是基于它们的动态性。但是期刊评价体系、Web of Science收录规则抹灭了评价指标的动态性，致使评价质量大打折扣。而单篇论文评价体系的成果之一便是建立一个动态的科学论文数据库。唯有经过单篇论文评价指标体系筛选后的一定比例的高影响力论文才能够被收录到数据库中，更重要的是，数据库并非“一次收录即永久收录”，而是“择优收录、动态调整”。一旦某篇论文经过一段时间的洗礼后，其综合评价得分降低到不能进入数据库收录的比例范围之内，那么这篇论文将被从数据库中剔除，而前期表现不佳的论文如果在后期奋起直追，那么也有可能被重新考虑收录进数据库里。因此，虽然单篇论文评价体系的各项指标和指标权重是确定的、静态的，但是单篇论文评价体系的数据库却是动态的，评价体系与数据库实现了静态与动态的有机结合。

4 单篇论文评价体系的构建与实证研究

4.1 单篇论文评价体系的构建思路

单篇论文评价体系以单篇论文为评价的基本单元，以论文发表后生命周期的不同阶段为时间线索，以代表性单篇论文评价指标为计量工具，以各指标赋权后的综合得分为输出结果，以动态调整的单篇论文评价数据库为实践形式，从单篇论文发表之时起，便对论文开展连续、动态、复合的追踪评价。单篇论文评价体系主要由两个部分构成。其一为单篇论文评价指标体系，其二为单篇论文评价数据库。

在单篇论文评价体系之下，论文从发表一刻起往后的生命周期被分为四部分，涵盖了论文发表之后的短期、中短期、中长期和长期四个阶段。单篇论文评价指标体系选取了多种不同类型的评价指标，囊括单篇论文的学术影响力、社会影响力、长期影响力和短期影响力评价，部分具体评价指标如下所示：

• 引用：被引次数（Web of Science/Scopus/Google Scholar）

• 使用数据：摘要浏览、全文浏览或下载（html、pdf）等

• 网络采集：网页收藏、Mendeley读者数等等

• 网络讨论：评论、博客报道、媒体报道等等

• 社交媒体：转发、分享、推荐、点赞等等

由于不同类型指标自身的特点，它们在论文的各个生命周期阶段发挥的效力也不尽相同。我们选择了PLOSComputational Biology 期刊2012年6月期发表的46篇论文作为跟踪对象，监测这一批论文在发表后5个月到发表后2年4个月之间的引用数据、社交媒体数据和使用数据变化情况，如图1所示。引用数据、社交媒体数据和使用数据分别以被引次数、社交媒体数据和被下载次数（为代表。根据图中三项计量指标的变化趋势可知，被引次数在论文发表后短期内数据量较少，因而在评价新发表论文影响力时效力暂时不足；但是随着时间的推移，被引次数数据量增长显著，在图1中三项计量指标之中被引次数的数据量增长幅度最大。在论文发表约两年后，被引次数已经积累了足够的数据量，可以在评价论文影响力方面发挥作用。而社交媒体数据和使用数据的时间变化趋势则与被引次数数据有着较为明显的区别。在论文刚发表的短时间内，社交媒体数据和使用数据就已经快速积累了较大的数据量，特别是使用数据的数据量在短期内已经相当庞大，远超这一阶段被引次数的数据量，这使得社交媒体指标和使用数据指标在论文刚发表后不久便可以对论文的影响力展开评价。值得注意的是，随着时间的推移，社交媒体数据和使用数据的数据量变化情况也显示出明显的差异。在论文发表后的两年多时间里，使用数据的数据量仍然呈现增长态势，但增长幅度不如被引次数的涨幅大。社交媒体数据量在其后的两年多时间里几乎没有发生什么变化，数据在短期内实现快速积累之后便基本持平。由此可见，被引次数在中长期和长期的论文影响力评价方面作用突出，但在短期和中短期内效果不佳；使用数据在短期和中短期内拥有丰富的数据量来开展论文影响力评价，但随着中长期和长期阶段被引次数权威效力的施展，使用数据的效力相对减弱；社交媒体数据在短期内能够迅速发挥作用，但是放眼中期和长期则鲜有显著变化，因而其发挥效力的阶段主要集中于论文发表后的短时期内。

图1 论文的各项计量指标的时间变化趋势

根据不同指标在各个阶段效力的大小可以比较出它们的相对重要程度，进而运用层次分析法确定出不同指标的权重系数。然后，根据各阶段单篇论文不同指标的得分结合权重系数，可以得出单篇论文的总得分。由于各阶段单篇论文不同指标的权重系数不同，并且不同论文因为质量有所区别而在各类指标的衡量之下有不同的表现，所以单篇论文影响力的变化将体现在四个阶段评价得分的上升、下降或持平中。

根据各个阶段的总得分，同时期发表的一定学科领域内的所有论文可以根据分数高低进行排序，论文排名越靠前表明该论文在同时期发表的所有本领域论文中的影响力越高，每个阶段排名靠前的一定数量比例的论文可以被收录进单篇论文评价数据库中。如果某篇论文在第一阶段排名符合收录标准而被收录进数据库，但在第二阶段排名下降，不符合该阶段的收录标准，则该论文又会被从数据库中删除。通过这样的动态评价手段，能够保证数据库中收录的始终是各阶段影响力较高的论文。

综上所述，构建单篇论文评价体系的研究思路如图2所示。评价指标体系的设计和评价数据库的建设共同构筑起了单篇论文评价体系的构建研究。第一部分的研究工作是设计评价指标体系。首先，遴选出代表性的计量指标，包括被引指标、社交媒体指标、使用数据指标和网络采集指标，涵盖对论文的学术影响力、社会影响力、长期影响力和短期影响力的评价工作；其次，将论文发表后的生命周期划分为四个阶段，覆盖论文的整个生命周期，保证评价体系的连续性；最后，通过各阶段各指标重要性的比较确定好各个阶段的指标权重体系，实现多样化计量指标的综合，保证评价体系的复合性。第二部分的研究工作是建设评价数据库。首先，针对评价指标体系选取的计量指标收集各阶段论文评价的元数据；其次，根据确定好的各阶段指标权重体系，计算出各阶段的论文评价数据；最后，基于论文评价数据得出综合评价结果，将各阶段符合收录标准的论文收录进数据库中，并遵循裁汰机制，保证评价体系的动态性。

图2 研究思路

4.2 实证研究：各阶段单篇论文评价结果的动态比较

为了更清晰地说明单篇论文评价体系的运作原理、论证其可行性，我们选取了被引次数、HTML浏览量、PDF下载量和Altmetrics系列指标的Facebook、Twitter、Mendeley、CiteUlike数据共7项计量指标。在这7项计量指标中，被引次数代表了对论文长期学术影响力的评价，HTML浏览量和PDF下载量这两项用户使用数据代表了对论文短期学术影响力的评价，其余4项Altmetrics系列指标则代表了对论文社会影响力的评价。由此构建起综合了论文多方位影响力评价的单篇论文评价指标体系。

在上文图1中，我们比较了多种计量指标数据量随时间变化的趋势，并在其基础之上分析了不同计量指标发挥效力的时间阶段，由此可以判断出不同阶段各指标的相对重要性（如表1所示）^[32]。

表1 四个阶段各指标的相对重要性^[32]

阶段	相对重要性
1 (发表0-6 月)	PDF下载 > HTML浏览> Twitter > Facebook > Mendeley > CiteUlike > 引用
2 (发表6 月-2 年)	PDF 下载 > HTML浏览 > Mendeley > CiteUlike > 引用 > Twitter > Facebook
3 (发表2 -5年)	引用> Mendeley > CiteUlike > PDF下载 > HTML浏览> Twitter > Facebook
4 (发表5年以上)	引用 > Mendeley > CiteUlike > PDF下载> HTML 浏览> Twitter > Facebook

根据表1中的相对重要性，并且需要考虑指标之间的具体的相对重要性程度^[32]，利用AHP层次分析法，计算得到7项指标在四个阶段中不同的权重系数，如表2所示。至此，初步完成了构建单篇论文评价体系的第一部分工作，即设计评价指标体系。

表2 四个阶段各类计量指标权重系数表^[32]

	CiteUlike	Mendeley	HTML浏览量	PDF 下载量	被引次数	Facebook	Twitter
阶段 1	0.0477	0.0477	0.1996	0.3901	0.0234	0.1109	0.1806
阶段 2	0.1723	0.1723	0.1182	0.2108	0.1321	0.0828	0.1116
阶段 3	0.1514	0.1514	0.0481	0.0921	0.3979	0.0644	0.0947
阶段 4	0.1269	0.1269	0.0455	0.0809	0.4819	0.0570	0.0810

在这一评价指标体系的基础上，我们可以开展实证研究以验证建设动态评价数据库的可行性，进而论证整个单篇论文评价体系的科学性。我们依旧使用PLOS Computational Biology 期刊2012年6月期发表的46篇论文作为跟踪对象，以检测评价方法和评价数据库运行的可行性。

首先，我们收集了这46篇论文在前三个阶段内（2012年发表的论文尚未进入第四阶段）的数据，如图3所示。图3中列出了46篇样本论文的出版数据和计量指标数据，包括每一篇论文的DOI号、计量指标的收集日期（harvest date），以及7项计量指标的数据。并且，在本文作者的个人英文网站上（http://xianwenwang.com/research/ale/index.html），通过交互式的点击，可以在三个阶段（Phase 1、2、3）的原始指标数据（metrics data）和标准化数据（Normalized data）切换。

图3 46篇样本论文在三个阶段内7项计量指标的元数据

http://xianwenwang.com/research/ale/index.html

对46篇样本论文7项计量指标的原始数据进行标准化处理，得到标准化数据以及在前三个阶段的综合得分，输出综合评价结果，如图4所示。图3和图4中最后一列的score为论文的综合得分结果。

图4 数据标准化及综合得分

http://xianwenwang.com/research/ale/index.html

最后，根据各阶段的综合得分，可以对这46篇论文在每一阶段分别进行排序，三个阶段的论文排序变化情况如图5的交互可视化所示，详细展示结果见网站：http://xianwenwang.com/research/ale/dynamic.html。

图5 样本论文前三阶段的得分排名变化情况

http://xianwenwang.com/research/ale/dynamic.html

在网站的交互式界面上，鼠标悬停在每篇论文的doi号或者曲线上方，选中的论文即会加亮显示，并且会弹出该篇论文在每一个阶段的综合得分结果和排序情况。红色曲线表明排名上升，绿色和黄色分别表明排名下降和不变，可见绝大部分论文在不同阶段排名都有显著的变化，有的论文甚至实现了颠覆式的逆转，可见单篇论文评价体系之下，论文的综合影响力在各阶段的变化情况被清晰地捕捉并且呈现出来，初步验证了单篇论文评价体系和评价数据库的可行性，这一研究结果被科学计量学权威国际会议ISSI2015全文录用^[32]。

5 结论与研究展望

5.1 研究结论

针对目前学术评价中以期刊影响因子进行单篇论文评价、忽略成果的社会影响力、无法利用被引次数对新发表论文进行评价等诸多问题，本研究基于论文的学术影响力和社会影响力、短期影响力和长期影响力等多重维度，构建出连续、动态和复合的单篇论文评价指标体系和评价数据库，并且开展了对科学论文的实证评价研究。研究结果证实了本文提出的单篇论文评价具有可行性。

5.2 研究展望

（1）优化评价指标体系

无论是被引次数、被下载次数等学术影响力评价指标，还是Altmetrics系列社会影响力评价指标，都属于外在的后验型评价指标，均是外界对科学论文发表一段时期之后的外在评价。除了这些外在指标之外，论文的内在指标也值得考虑。

内在的先验型评价指标是指论文在发表之时便已经具备的、无特殊情况不会随着时间的推移而发生变化的特征与属性因素，例如论文的合作作者数、机构数和国家数、全文长度、图表数、公式数、参考文献数、普赖斯指数、发表期刊的影响因子、论文作者过去的影响力、结构变异指数等等^[33-36]，这些因素是新发表论文“与生俱来”的真实价值的载体，发表之后便不受外界主观因素的干扰。

外在指标数据采集相对容易，内在指标数据收集难度较大，有的指标还需要经过复杂计算。论权威性，以被引次数为代表的外在评价指标的效力和科学共同体的接受程度都要强于内在评价指标；但是论时效性，伴随论文发表即时产生的内在指标数据则相对较强。因此单篇论文评价体系未来的研究方向可以致力于实现内在指标和外在指标的兼容并蓄，通过即时的内在指标评价做出初步的判断，继而接受时间的检验再做出较为准确的定量评价，从而将评价体系在时间维度上实现完全覆盖，容纳论文从发表一刻起的整个生命周期。

（2）增强指标权重体系的科学性

在各阶段计量指标体系的确定过程中，首先涉及到在4个阶段对各指标的相对重要性进行判断，在前期预研中我们形成了一个初步判断结果，在未来的深入研究中，我们将采取专家打分对各项指标相对重要性程度继续完善。

（3）扩大实证数据覆盖范围

在目前的实证研究中，我们选择PLOS的数据作为研究对象。未来，我们计划将研究对象扩展到其他主要学术出版商和期刊，包括Springer、Nature及系列子刊、Science、PNAS等等。这些出版商和学术期刊均已经开始面向公众提供论文被下载的数据和altmetrics数据等。在今后的研究中，还将逐步扩大到更多的学术出版商和期刊，以期在更广泛的数据范围内验证单篇论文评价体系的普适性、可行性和科学性。

（4）对其他科技成果评价的扩展

单篇论文评价体系的评价对象是科学论文，而单篇论文评价体系的思想则可以扩展到对于其他多种科技成果的评价工作中。这种扩展既包括单一评价指标的跨界运用，也包括对多种指标进行有序综合的思想的扩散传播。例如，对著作的评价，可以采用的指标包括被引次数、电子版下载次数和销售量、纸质版销售量、亚马逊星级评分、altmetrics等；以及对专利的评价，指标体系包括被引次数、专利家族、技术周期时间^[37]、Altmetrics、普赖斯指数等。目前来说，Altmetrics仅能够对科学论文进行社交媒体的数据收集和得分计算，这一思想还没有应用到专利的评价上，但是借鉴Altmetrics对科学论文的评价思想，开展对专利的Altmetrics评价也是可行的。例如，苹果公司申请的关于iphone手机新摄像头的专利“Digital camera with lightsplitter”（专利文件号为8988564）的相关新闻被多个媒体报道，仅知名科技网站techcrunch的报道就被社交媒体转发774次。和科学论文一样，技术专利在社交媒体中引发的反响也可以作为技术的社会影响评价，进而体现专利价值的一项指标。在此基础上，倘若各项指标的评价效力、数据量、适用范围等条件符合体系化的标准，那么将有助于更好地做出科技成果的单篇层次评价。

参考文献

[1] Priem J, Taraborelli D, Groth P, Neylon C. Altmetrics: Amanifesto. In (Vol. 2014) [EB/OL].

http://altmetrics.org/manifesto.

[2] Wang X, Mao W, Xu S, et al. Usage history of scientificliterature: Nature metrics and metrics of Nature publications[J].Scientometrics, 2014, 98(3): 1923-1933.

[3] Adie E, Roe W. Altmetric: enriching scholarly contentwith article-level discussion and metrics[J]. Learned Publishing, 2013, 26(1):11-17.

[4] de Winter J C F. The relationship between tweets,citations, and article views for PLOS ONE articles[J]. Scientometrics, 2014,102(2): 1773-1779.

[5] Neylon C, Wu S. Article-Level Metrics and the Evolution ofScientific Impact[J]. PLoS Biology, 2009, 7(11): e1000242.doi:10.1371/journal.pbio.1000242.

[6] Lane J. Let's make science metrics more scientific[J].Nature, 2010, 464(7288): 488-489.

[7] e Costa C A B, Oliveira M D. A multicriteria decisionanalysis model for faculty evaluation[J]. Omega, 2012, 40(4): 424-436.

[8] Handel M J P. Article-level metrics–it's not just aboutcitations[J]. The Journal of experimental biology, 2014, 217(24): 4271-4272.

[9] 张静. 引文, 引文分析与学术论文评价[J]. 社会科学管理与评论, 2008, (1): 33-38.

[10] Watson A B. Comparing citations and downloads forindividual articles at the Journal of Vision[J]. Journal of Vision, 2009, 9(4):i.

[11] Alberts B. Impactfactor distortions[J]. Science, 2013, 340(6134): 787-787.

[12] Bordons M, Fernández M T, Gómez I. Advantagesand limitations in the use of impact factor measures for the assessment ofresearch performance[J]. Scientometrics, 2002, 53(2): 195-206.

[13] Garfield E. The history and meaning of the journal impact factor[J]. Jama, 2006,295(1): 90-93.

[14] Opthof T. Sense and nonsense about the impact factor[J]. Cardiovascular research,1997,33(1): 1-7.

[15] PLoS_Medicine_Editors. The impact factor game[J]. PLoS medicine, 2006,3(6): e291.

[16] Seglen P O. Why the impact factor of journals should not beused for evaluating research[J]. Bmj, 1997, 314(7079): 497.

[17] Priem J, Groth P,Taraborelli D. The altmetrics collection[J]. PLoS ONE,2012,7(11): e48753.

[18] Thelwall M, Haustein S, Larivière V, et al. Doaltmetrics work? Twitter and ten other social web services[J]. PloS one, 2013,8(5): e64841.

[19] Shuai X, Pepe A, BollenJ. How the scientific community reacts to newly submitted preprints: articledownloads, Twitter mentions, and citations[J]. PLoS ONE, 2012, 7(11): e47523.

[20] Eysenbach G. Can tweets predict citations? Metrics of socialimpact based on Twitter and correlation with traditional metrics of scientificimpact[J]. Journal of medical Internet research, 2011, 13(4).

[21] Davis P. Tweets ,andour obsession with alt metrics[EB/OL]. The Scholarly Kitchen, 2012, http://scholarlykitchen.sspnet.org/2012/01/04/tweets-and-our-obsession-with-alt-metrics/

[22] Haustein S, PetersI, Sugimoto C, Thelwall M, Larivière V. Tweeting Biomedicine: An Analysis ofTweets and Citations in the Biomedical Literature[J]. Journal of theassociation for information science and technology, 2014, 65(4):656-669.

[23] Van Noorden R. Twitter buzz about papers does not meancitations later[EB/OL]. Nature News,doi:10.1038/nature.2013.14354

[24] 王贤文，刘趁，毛文莉. 数字出版时代的科学论文综合评价研究[J].中国科技期刊研究, 2014, 25(11): 1391-1396.

[25]Kosmulski M. Successful papers: A new idea in evaluation of scientific output[J].Journal of Informetrics, 2011, 5(3): 481-485.

[26]Bornmann L, Daniel H D. The citation speed index: A useful bibliometricindicator to add to the h index[J]. Journal of Informetrics, 2010, 4(3):444-446.

[27] 刘春丽. Web 2.0环境下的科学计量学：选择性计量学[J].图书情报工作, 2012, 56(14): 52-56, 92.

[28] Lippi G, FavaloroE J. Article downloads and citations: Is there any relationship?[J]. Clinicachimica acta; international journal of clinical chemistry, 2013, 415: 195.

[29] O'Leary D E. Therelationship between citations and number of downloads in Decision SupportSystems[J]. Decision Support Systems, 2008, 45(4): 972-980.

[30] Jahandideh S,Abdolmaleki P, Asadabadi E B. Prediction of future citations of a researchpaper from number of its internet downloads[J]. Medical hypotheses, 2007,69(2): 458-459.

[31] Coats A J S. Top of the charts: download versuscitations in the International Journal of Cardiology[J]. International journalof cardiology, 2005, 105(2): 123-125.

[32] Wang X, Fang Z, Yang Y. Continuous, Dynamicand Comprehensive Article-Level Evaluation of Scientific Literature[J]. arXivpreprint arXiv:1411.7004, 2014.

[33]Didegah F, Thelwall M. Determinants of research citation impact in nanoscienceand nanotechnology[J]. Journal of the American Society for Information Scienceand Technology, 2013, 64(5): 1055–1064.

[34]Natsuo O, Fuyuki Y. Factors affecting citation rates of research articles[J].Journal of the Association for Information Science and Technology, 2015, 66(4):739-764.

[35]Chen C. Predictive effects of structural variation on citation counts[J].Journal of the American Society for Information Science and Technology, 2012,63(3): 431–449.

[36] PengT Q, Zhu J J H. Where you publish matters most: A multilevel analysis offactors affecting citations of internet studies[J]. Journal of the AmericanSociety for Information Science and Technology, 2012, 63(9): 1789-1803.

[37] 胡小君, 陈劲.基于专利结构化数据的专利价值评估指标研究[J].科学学研究,2014, 32(3): 343-351.

作者按：本文已经被国家自然科学基金委员会管理科学重要学术期刊《科学学与科学技术管理》录用。

关于这篇论文的详细实证研究于2014年12月投稿至科学计量学权威国际会议第15届ISSI会议，被全文录用。英文论文下载地址：http://arxiv.org/abs/1411.7004

王贤文-连续、动态和复合的单篇论文评价体系构建研究.pdf

转载本文请联系原作者获取授权，同时请注明本文来自王贤文科学网博客。
链接地址：https://m.sciencenet.cn/blog-753655-888408.html

上一篇：ISSI会议和土耳其今年开始对中国公民免签政策
下一篇：说好的一起联合抵制Elsevier呢？有些科学家食言了

收藏分享

xianwenwang的个人博客分享 http://blog.sciencenet.cn/u/xianwenwang 大连理工大学科学学与科技管理研究所WISE实验室副教授，从事科学计量学与科技管理的研究与教学工作

博文

连续、动态和复合的单篇论文评价体系构建研究

当前推荐数：7 推荐人：杜建 许培扬 陆泽橼 杨正瓴 武夷山 赵星 王兴

该博文允许注册用户评论请点击登录评论 (4 个评论)

王贤文

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

xianwenwang的个人博客分享 http://blog.sciencenet.cn/u/xianwenwang 大连理工大学科学学与科技管理研究所WISE实验室副教授，从事科学计量学与科技管理的研究与教学工作

博文

连续、动态和复合的单篇论文评价体系构建研究

当前推荐数：7 推荐人： 杜建 许培扬 陆泽橼 杨正瓴 武夷山 赵星 王兴

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

王贤文

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：7 推荐人：杜建许培扬陆泽橼杨正瓴武夷山赵星王兴

该博文允许注册用户评论请点击登录评论 (4 个评论)