博文

从伪造文献到伪造研究数据，AI继续挑战学术研究底线

已有 1016 次阅读 2023-11-23 12:29 |系统分类:观点评述

ChatGPT 生成虚假数据集以支持科学假设

ChatGPT为说明某个观点会伪造不存在的参考文献，但现在能为了证明某个假说伪造研究数据，关键是这样的能力是这种技术的内生或延申能力，那么将来给学术研究带来的挑战将是无法想象的困难。如果让ChatGPT伪造原始数据，并利用这样的数据撰写医学论文。这会给假论文制造带来新技术，导致更严重的论文泛滥，甚至有颠覆今天的学术发表的可能。

研究人员表示，聊天机器人背后的模型捏造了一个令人信服的虚假数据库，但深入检查表明它并不真实。

ChatGPT generates fake data set to support scientific hypothesis (nature.com)

研究人员利用人工智能（AI）聊天机器人 ChatGPT 背后的技术创建了一个虚假的临床试验数据集，以支持未经证实的科学主张。

11月9日发表在《美国医学会眼科杂志》上的一篇论文中，作者使用 GPT-4与高级数据分析（ADA）配对，该模型结合了编程语言 Python，可以执行统计分析和创建数据可视化。人工智能生成的数据比较了两种外科手术的结果，并错误地表明一种治疗方法比另一种治疗方法更好。

“我们的目标是强调，在几分钟内，你可以创建一个没有真实原始数据支持的数据集，而且与现有证据相比，它也是相反或相反的方向，”该研究的合著者Giuseppe Giannaccare说，他是意大利卡利亚里大学的眼外科医生。

人工智能制造令人信服的数据的能力增加了研究人员和期刊编辑对研究诚信的担忧。“生成式人工智能可以用来生成使用剽窃软件无法检测到的文本是一回事，但创建虚假但真实的数据集的能力是下一个令人担忧的水平，”加利福尼亚州旧金山的微生物学家和独立研究诚信顾问伊丽莎白·比克说。“这将使任何研究人员或一组研究人员都很容易对不存在的患者进行虚假测量，对问卷进行虚假回答或生成有关动物实验的大型数据集。

作者将结果描述为“看似真实的数据库”。但当专家检查时，这些数据未能通过真实性检查，并且包含捏造的迹象。

手术比较

作者要求 GPT-4 ADA 创建一个关于患有圆锥角膜的眼部疾病的人的数据集，这种疾病会导致角膜变薄，并可能导致注意力受损和视力不佳。对于15-20%的疾病患者，治疗涉及角膜移植，使用两种手术之一进行。

第一种方法是穿透性角膜移植术（PK），包括通过手术切除角膜的所有受损层，并用供体的健康组织代替它们。第二种手术是深层前板层角膜移植术（DALK），仅替换角膜的前层，保留最内层的完整。

作者指示大型语言模型捏造数据以支持 DALK 比 PK 产生更好的结果的结论。为此，他们要求它在评估角膜形状并检测不规则性的成像测试中显示统计学差异，以及试验参与者在手术前后视力的差异。

人工智能生成的数据包括160名男性和140名女性参与者，并表明接受DALK的人在视力和影像学测试中的得分都高于PK的人，这一发现与真正的临床试验显示不一致。在 2010 年一项涉及 77 名参与者的试验报告中，DALK 的结果与术后长达 2 年的 PK 结果相似.

“创建至少在表面上合理的数据集似乎很容易。因此，对于未经训练的人来说，这当然看起来像一个真实的数据集，“英国曼彻斯特大学的生物统计学家杰克威尔金森说。

威尔金森对检测不真实数据的方法很感兴趣，他研究了由早期版本的大型语言模型生成的几个数据集，他说这些数据集在仔细检查时缺乏令人信服的元素，因为它们难以捕捉变量之间的真实关系。

更仔细的审查

应《自然》新闻团队的要求，威尔金森和他的同事卢泽文使用旨在检查真实性的筛选协议评估了假数据集。

这表明许多“参与者”在指定的性别和通常从他们的名字中预期的性别之间不匹配。此外，术前和术后视力测量与眼成像测试之间没有发现相关性。Wilkinson 和 Lu 还检查了数据集中某些列中的数字分布，以检查非随机模式。眼成像值通过了这项测试，但一些参与者的年龄值以一种在真实数据集中极不寻常的方式聚集：年龄值以 7 或 8 结尾的参与者数量不成比例。

该研究的作者承认，他们的数据集存在缺陷，可以通过仔细审查来发现。但是，Giannaccare说，“如果你非常快速地查看数据集，就很难识别数据源的非人类来源”。

EMBO Reports的主编Bernd Pulverer也认为这是一个令人担忧的问题。“在现实中，同行评审往往没有进行全面的数据重新分析，也不太可能发现使用人工智能精心设计的诚信违规行为，”他说，并补充说，期刊将需要更新质量检查，以识别人工智能生成的合成数据。

威尔金森正在领导一个合作项目，设计统计和非统计工具，以评估潜在的问题研究。“就像人工智能可能是问题的一部分一样，可能会有基于人工智能的解决方案来解决其中的一些问题。我们也许能够自动化其中一些检查，“他说。但他警告说，生成式人工智能的进步可能很快就会提供规避这些协议的方法。Pulverer对此表示赞同：“一旦知道筛选所寻找的内容，人工智能就可以很容易地将其武器化。

Taloni A, Scorcia V, Giannaccare G. Large Language Model Advanced Data Analysis Abuse to Create a Fake Data Set in Medical Research. JAMA Ophthalmol. 2023 Nov 9:e235162. doi: 10.1001/jamaophthalmol.2023.5162.

转载本文请联系原作者获取授权，同时请注明本文来自孙学军科学网博客。
链接地址：https://m.sciencenet.cn/blog-41174-1410821.html

上一篇：[转载]氢的礼赞
下一篇：大脑如何知道吃饱？

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

从伪造文献到伪造研究数据，AI继续挑战学术研究底线

当前推荐数：2 推荐人：许培扬 郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

博文

从伪造文献到伪造研究数据，AI继续挑战学术研究底线

当前推荐数：2 推荐人： 许培扬 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

孙学军

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

氢分子医学分享 http://blog.sciencenet.cn/u/孙学军对氢气生物学效应感兴趣者。可合作研究：sunxjk@hotmail.com 微信 hydrogen_thinker

当前推荐数：2 推荐人：许培扬郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)