张成岗(CZ)的博客世界分享 http://blog.sciencenet.cn/u/zcgweb 脑损伤与脑保护;神经认知;生物信息;蛋白质组;辐射损伤与防护

博文

[转载]ChatGPT编造的医学论文摘要,审稿人也难辨真假

已有 1849 次阅读 2023-1-25 09:10 |系统分类:科研笔记|文章来源:转载

细思极恐:ChatGPT编造的医学论文摘要,审稿人也难辨真假

原创 生物世界 生物世界 2023-01-23 16:43 发表于上海

https://mp.weixin.qq.com/s/TvZ-BetZDrk6A5GRL7Djuw 

image.png

image.png

编译丨王聪

编辑丨王多鱼

排版丨水成文


ChatGPT,是由埃隆·马斯克等人创立的人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型——人工智能技术驱动的自然语言处理工具。


ChatGPT能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。


image.png


而在2022年12月27日,美国西北大学的 Catherine Gao 等人在预印本 bioRxiv 上发表了题为:Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers 的研究论文。


研究团队使用AI聊天机器人 ChatGPT 写出了令人信服的研究论文摘要,甚至人类科学家都难以分辨真假。这让许多科学家担忧。


image.png


自从ChatGPT发布以来,研究人员就一直在努力解决围绕其使用的伦理问题,因为它的大部分输出很难与人类自己所书写的文本区分开来。在这篇发表于预印本论文中,Catherine Gao 领导的研究团队使用 ChatGPT 来生成研究论文摘要,以测试科学家是否能发现它们。



研究团队要求ChatGPT根据发表在 JAMANEJMBMJLancet  Nature Medicine 这5个顶级医学期刊上精选的论文来撰写50篇医学研究摘要。然后,研究团队通过论文剽窃检测器和人工智能输出检测器将这些摘要与原始摘要进行比较,并要求一组医学研究人员找出那些是ChatGPT所编造的摘要。

结果令人惊讶,ChatGPT所编写的摘要顺利通过了论文剽窃检查,原创性得分为100%,也就是没有检测到抄袭。人工智能输出检测器发现了33篇(识别率66%)ChatGPT所编造的摘要,但人类审稿人并没有能做得更好,人类审稿人只正确地识别了34篇(识别率68%)由ChatGPT所编造的摘要和86%的真正的论文摘要。也就说是,人类审稿人把32%的ChatGPT所编造的摘要识别为真实的论文摘要,而将14%的真实论文摘要识别为ChatGPT所编造的摘要。这意味着,ChatGPT在编造研究论文摘要方面,达到了人类专家都难辨真假的程度。

Catherine Gao 表示,ChatGPT写出了令人信服的研究论文摘要,使用大型语言模型来帮助科学写作的道德和可接受的界限仍有待确定。

image.png

这将为我们带来一个显而易见的难题:如果科学家都不能判断这些由ChatGPT所编造的研究论文的真假,可能会带来“可怕的后果”。这不仅会给科研人员带来麻烦,因为他们阅读的研究论文可能是由ChatGPT编造的。这也可能对整个社会带来麻烦,因为科学研究在社会中发挥重要作用,基于科学研究的政策决定可能会受到ChatGPT编造的研究所误导。

还有人工智能研究专家为这种依赖大型语言模型进行科学思考的方式感到担忧,因为这些模型是根据过去的已有信息进行训练的,而社会和科学的进步往往来自与过去不同的思维或开放思维。

因此,这篇预印本论文作者建议,那些评估研究论文和学术会议纪录的人,应当制定政策,杜绝使用人工智能来生成文本。如果允许在某些情况下使用这些技术,应当建立明确的规则,并披露具体使用情况。

据悉,将于今年7月在夏威夷举行的第40届国际机器学习大会,将会宣布禁止使用ChatGPT和其他AI语言工具撰写论文。

在虚假信息可能危及人类安全的领域,例如医学领域,医学学术期刊应当采取更严格的方法来验证信息的准确性。

普林斯顿大学的计算机科学家 Arvind Narayanan 表示,任何严肃的科学家都不太可能使用ChatGPT来生成论文摘要,使用ChatGPT的好处是微乎其微的,而缺点是显著的。解决使用ChatGPT来编造论文这一问题的方案不应该聚焦在ChatGPT工具本身,而应该聚焦在导致这种行为的动机上,比如有些大学在招聘和晋升审核时,只看论文数量,而不考虑论文的质量或影响力。

参考资料
https://www.nature.com/articles/d41586-023-00056-7 
https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1 





https://m.sciencenet.cn/blog-40692-1373355.html

上一篇:[转载]饮食与肠道菌群-唇齿相依(2019-11-18)
下一篇:[转载]Microbiome:肠道菌群来源的肌苷通过添加膳食大麦叶激活PPARγ信号通路减轻肠炎(2021.7.12)

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 10:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部