博文

通过作者单位信息识别论文工厂的策略

已有 2190 次阅读 2024-2-8 10:18 |系统分类:海外观察

论文工厂成为毒害学术出版的毒瘤，有意思的是，研究论文工厂特别是识别方法也成为一种学术研究方向，这大概是论文工厂存在的一个意外“好处”。

最近有学者提出一种识别论文工厂的新技术，就是利用作者关系进行分析，这显然非常具有可行性。过去的思路是从论文内容上进行识别和分析，但是有一些论文，如果工厂足够“敬业”，尽量严格按照学术规则进行操作，例如，每个数据都是独立按照材料方法“制作”出的。过去被识别出的图片重复使用，拼接使用等问题，而这些问题不仅出现在论文工厂，普通的学术机构，当然也属于不端行为，也有大量出现，这就给识别带来很大困难。但是购买工厂的论文作者，往往具有这样的特点。可能是来自不同学术机构，这些机构没有可能的学术合作关系，至少没有稳定的合作关系，但作者出现在同样一篇论文中。过去本人在审稿中也有类似发现，例如某妇产科的医生，和千里外的另一家医院的骨科医生，包括多家不相干的非主要学术机构的医生，共同完成了一项“中药成分治疗动物疾病模型的效果和分子机制的研究”，这里面存在许多可疑的问题。这些不同专业的作者们，几乎不可能具有同样的研究兴趣，完成这样一项纯基础研究工作，不可能是多家医院共同开展的课题。

其实利用简单的算法工具，这些问题就可以清楚展现出来，最近有学者写论文对这种根据作者关系寻找论文工厂来源论文的策略进行了研究。

[2401.04022] Identifying Fabricated Networks within Authorship-for-Sale Enterprises (arxiv.org)

捏造的论文不仅需要文本、图像和数据，还需要捏造或部分捏造的作者网络。捏造论文上的大多数“作者”与研究无关，而是通过交易添加的。这种缺乏更深层次的联系意味着，捏造论文的合著者不止一次地在同一篇论文上一起出现的可能性很低。本文构建了一个模型，在“作者出售”网络中编码了该活动的一些关键特征，旨在创建一种强大的方法来检测此类活动。该模型产生了一个特征网络指纹，它为检测造纸厂网络提供了一种强大的统计方法。本文中提出的模型检测的网络与其他主要依靠文本分析来检测欺诈性论文的方法具有统计学上的显着重叠。研究人员使用本文概述的方法识别出与网络相关的研究人员与37%的论文有关，这些论文是通过Problematic Paper Screener网站上部署的折磨短语和粘土脚方法确定的。最后，从技术和社会两个方面讨论了限制这些网络扩展和传播的方法。

A group of figurines linked by lines illustrating a network of connected people.

Fake research papers flagged by analysing authorship trends (nature.com)

一家研究技术公司开发了一种新方法，可以帮助识别来自论文工厂的期刊文章，论文工厂是大量生产虚假或低质量研究并出售作者身份的公司。

该技术在上个月发布在arXiv上的预印本中进行了描述1，使用论文作者的组合等因素来标记可疑研究。总部位于伦敦的Digital Science公司的开发人员表示，它可以帮助识别研究人员可能已经购买了论文的案例。

以前检测论文工厂产品的努力往往集中在分析手稿的内容上。例如，一个在线工具在论文中搜索受折磨的短语——这是由旨在避免剽窃检测的软件生成的现有术语的奇怪替代短语。另一个工具由国际科学、技术和医学出版商协会（STM）试行，当相同的手稿同时提交给多个期刊或出版商时，它会进行标记。

随着论文工厂在生产令人信服的文本方面变得更好，分析作者之间关系的方法可能很有价值，总部位于荷兰乌得勒支的STM首席信息官Hylke Koers说。“这种信号更难通过巧妙地使用生成式人工智能来解决或超越。

不寻常的模式

论文工厂对出版商来说是一个日益严重的问题——据估计，2022 年所有发表的论文中约有 2% 类似于论文工厂制作的研究——近年来，出版商加大了解决这些问题的力度。

除了质量差，通常包含捏造的数据和荒谬的文字外，论文工厂生产的文章还经常填充研究人员，这些研究人员购买了已经接受出版的手稿的作者身份。一些论文工厂声称已经代理了数以万计的作者，包括在Web of Science和Scopus等受人尊敬的数据库中索引的期刊。

这可能会产生不寻常的合著模式和研究人员网络，这些模式与合法研究不同，数字科学研究未来副总裁西蒙·波特（Simon Porter）说。

波特说，在正常情况下，“你会期望发现一个年轻的研究人员与他们的导师一起发表文章，然后开始分支并与其他人一起发表文章的行为。“你可以看到一个演变;但它不是一个随机的网络。

论文工厂的情况并非如此。波特和他的同事们开发的技术可以搜索表明论文工厂活动的趋势。其中包括由突然发表论文激增的早期职业研究人员组成的合著者网络，以及由几位没有出版历史的作者或不太可能合作的合作者组成的论文，例如来自多个地点或不相关学科的作者。

当他们将新技术的结果与问题论文筛选器（Problematic Paper Screener）的结果进行比较时，Porter及其同事发现了明显的重叠。他们的研究发现，大约10%的作者被这两种工具直接标记，而“作者网络”数据集中72%的作者可以通过合著与“折磨短语”数据集中的作者联系起来。

技术技巧

尽管论文工厂已经迅速发展，因此发表的带有折磨短语的论文越来越少，但波特认为，这些公司将发现很难在保持当前商业模式的同时规避这些工具的标记。

Digital Science已经在网上发布了该技术的基础代码，Porter表示出版商可以立即开始使用它。

阿姆斯特丹STM Solutions的项目总监Joris Van Rossum表示，他的组织将考虑将这项新技术添加到STM Integrity Hub中，该中心是一系列资源和工具，旨在帮助出版商检测欺诈性论文。他补充说，一个名为Signals的工具已经在中心，它使用作者网络作为其分析的一部分。

伦敦施普林格·自然（Springer Nature）的研究诚信总监克里斯·格拉夫（Chris Graf）表示，障碍仍然存在，特别是在区分同名研究人员和淘汰被错误标记的作者方面。“我们发现，在这种情况下，数据一致性可能存在一些挑战，这意味着这并不简单，”Graf 说。“具有低聚类系数的非常聪明的年轻研究人员可能会显示为假阳性，这显然远非理想。但他补充说：“话虽如此，我们正在探索许多不同的选择，没有什么是不可能实现的。（《自然》杂志的新闻团队独立于其出版商施普林格·自然（Springer Nature）。

柏林自由大学（Free University of Berlin）的社会学家安娜·阿巴尔金娜（Anna Abalkina）多年来一直在追踪论文工厂的研究，她说，仔细研究作者网络是个好主意。“论文工厂确实存在合作异常，”她说。

然而，Abalkina警告说，我们对论文工厂的商业模式和流程的了解是有限的。她指出，也很难证明已发表的研究肯定是论文工厂的产品，因此很难将其作为撤回的理由。

最终，“要想为论文工厂提供令人信服的过滤器，就要使出书中的每一个技巧”。“这不仅仅是一种技术。”

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://m.sciencenet.cn/blog-41174-1421063.html

上一篇：电动汽车电池正在酝酿一场革命
下一篇：富氢果冻改善肠道紊乱的研究【衰老鼠】

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

通过作者单位信息识别论文工厂的策略

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

通过作者单位信息识别论文工厂的策略

当前推荐数：1 推荐人： 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)