博文

同行评议质量评价研究精选

已有 4836 次阅读 2022-9-7 07:18 |系统分类:观点评述

同行评议是当今学术评价的金指标，但评议本身也需要评议，这是目前的一个趋势。但研究同行评议的难度比一般科学问题一点都不小，主要是缺乏透明度，全面资料获取并不容易。最近有学者利用机器学习研究了万份生物医学领域期刊的同行评议，并发明了关于同行评议质量的评价指标。

高被引期刊的同行评议质量更高吗?评审通常是保密的，评审本身的“质量”是难以判断的，所以这是一个很难回答的问题。但是，安娜·塞维林等使用机器学习研究了生物医学期刊上10,000份同行评议报告的研究人员已经进行了尝试。他们发明了质量的替代指标，他们称之为彻底性和有益性（thoroughness and helpfulness）。

他们的研究结果发表在7月份的一篇预印本文章中。他们发现，与影响力较低的期刊相比，影响力较高的期刊的评议过程似乎花了更多时间讨论论文的方法，但在提出改进建议上花的时间较少。然而，高影响期刊和低影响期刊之间的差异并不大，而且非常不稳定。这表明期刊的影响因子是“对单个论文的评审质量的一个不好的预测”。

在伯尔尼大学和瑞士国家科学基金会(SNSF)担任科学政策和学术出版博士学位的安娜·塞维林(Anna Severin)领导了这项研究。她对《自然》杂志谈到了这项工作以及大规模研究同行评议的其他努力。塞维林现在是德国管理咨询公司凯捷发明的一名健康顾问。

你是怎么得到这些机密的同行评议报告的?

网站Publons(由分析公司Clarivate所有)拥有一个包含数百万篇评论的数据库，这些评论都是由期刊或学者自己提交的。他们给了我们访问的机会，因为他们有兴趣更好地了解同行评审的质量。

可以衡量同行评审的质量吗?

目前没有这一定义。我与科学家、大学、资助者和出版商组成的焦点小组告诉我，“高质量”的同行评议对每个人都有不同的意义。例如，作者经常想要及时的建议来改进他们的论文，而编辑经常想要关于是否发表的建议(有理由的)。

一种方法是使用一份清单，系统地给一个人对一篇综述的主观意见评分，比如它在多大程度上评论了一项研究的方法、解释或其他方面。研究人员开发了Review Quality Instrument2和ARCADIA checklist3。但我们无法在成千上万的评论中手动评估这些清单。

所以你衡量的是“彻底性”和“有用性”?

我们SNSF与都柏林大学学院的政治学家Stefan Müller合作，Stefan Müller是使用软件分析文本的专家，使用机器学习来评估评论的内容。我们关注的是彻底性(句子是否可以归类为对材料和方法的评论，陈述，结果和讨论，或论文的重要性)和帮助性(如果一个句子涉及表扬或批评，提供了例子或提出了改进建议)。

我们从医学和生命科学期刊上随机挑选了10,000篇评论，并将其中2,000句话的内容手动分配到没有、一个或多个类别。然后，我们训练了一个机器学习模型来预测另外187,000个句子的类别。

你发现了什么?

期刊影响因子似乎与同行评议内容和审稿人的特点有关。我们发现，为高影响力期刊提供的评审报告往往较长，审稿人更有可能来自欧洲和北美。与影响较小的期刊上的评议意见相比，影响较大的期刊报告中，材料和方法的句子所占比例较大；论文介绍或提出改进论文建议的评议比例较少。

即使在具有相似影响因子的期刊中，这些比例也存在很大差异。所以我想说的是，这表明影响因子对于评论的“彻底性”和“有用性”是一个不好的预测因素。我们将其解释为“质量”方面的代表。

当然，这种技术也有局限性:机器学习总是给一些句子贴上错误的标签，尽管我们的检查表明，这些错误不会对结果产生系统性的偏见。此外，我们不能检查在我们编码的评审中所做的声明是否真的正确。

这与大规模研究同行评议的其他努力相比如何?

一项计算机辅助研究考察了近50万篇综述文本的语气和情感方面——没有发现与研究领域、审稿人类型或审稿人性别有关的联系。这项研究是由欧盟资助的“PEERE”研究联盟的成员完成的，该联盟呼吁更多地共享同行评议的数据。在另一项涉及35万篇评论的性别偏见研究中，PEERE团队的成员发现，同行评议并没有惩罚女性作者的手稿(尽管这并不意味着在学术界没有歧视女性，作者补充道)。

另一个团队与出版商PLOS ONE合作，从其数据库中分析了2000多份报告，从情绪和语气等方面进行了研究。

我们认为，我们的研究是第一步，表明有可能以一种系统的、可扩展的方式评估一项综述的彻底性和益处。

科学家怎样才能更好地研究和提高同行评议的质量?

为了改进同行评议，对审稿人进行培训，并就期刊想从评议中得到什么给出明确的指导和指南将会有所帮助。要研究它，真正重要的一步将是提出不同利益相关者同意的质量同行评议的衡量方法——因为不同的团体认为它有不同的功能。像一些期刊开始做的那样，让同行评议的文本公开而不是保密，将有助于解决所有这些问题。

[2207.09821] Journal Impact Factor and Peer Review Thoroughness and Helpfulness: A Supervised Machine Learning Study (arxiv.org)

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://m.sciencenet.cn/blog-41174-1354292.html

上一篇：人体能协助空气产生羟基自由基
下一篇：疾病行为是如何产生的？

收藏分享

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

同行评议质量评价研究精选

当前推荐数：7 推荐人：崔锦华 晏成和 姚伟 杨正瓴 郑强 许培扬 郑永军

该博文允许注册用户评论请点击登录评论 (5 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

同行评议质量评价研究 精选

当前推荐数：7 推荐人： 崔锦华 晏成和 姚伟 杨正瓴 郑强 许培扬 郑永军

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

同行评议质量评价研究精选

当前推荐数：7 推荐人：崔锦华晏成和姚伟杨正瓴郑强许培扬郑永军

该博文允许注册用户评论请点击登录评论 (5 个评论)