jhsbj的个人博客分享 http://blog.sciencenet.cn/u/jhsbj

博文

帮助医生消除误诊人工智能(AI)是个好帮手

已有 808 次阅读 2024-2-5 18:18 |个人分类:健康|系统分类:科研笔记

医学诊断错误(简称误诊)是指医生在诊断疾病时犯下的错误,可能导致错误的治疗决策和不良的治疗结果。误诊是医疗系统中主要的可避免的错误之一,可能导致不必要的治疗、延误治疗或错误治疗。因此,消除误诊对于改善患者的治疗和效果至关重要。 

医疗界很少讨论和宣布误诊这个问题,但许多研究已经开始认真面对诊断错误这一严重问题。最近的一项研究得出结论:估计每年约有近80万美国人死亡或永久残疾是由于误诊造成的。这些研究显示了这个问题的规模和影响,提醒人们要重视并采取行动来改善医疗诊断的准确性和质量。 

误诊是医生在判断患者疾病时犯的错误,可能导致错过关键的疾病迹象或给出错误的诊断,例如错过了心脏病发作或感染的诊断,将肺炎误诊为肺栓塞。这种错误可能导致患者错过及时的治疗或接受错误的治疗,从而对患者的健康和生命造成严重影响。 

尽管医学影像和实验室检测的使用越来越多,旨在提高诊断准确性,但是自2015年的报告以来,并没有显示出任何改进的迹象。2015年的报告提供了一个保守估计,每年有5%的成年人都会经历诊断错误,并且大多数人在他们的一生中至少会经历一次。这意味着误诊是一个常见且普遍存在的问题。因此,需要采取更多的措施来改进诊断的准确性,以避免对患者健康造成不必要的风险。 

医生没有将可能的诊断都纳入考虑,导致诊断错误或延误。例如,医生可能会过分依赖实验室检测结果或医学影像,而忽视了患者的症状、病史和体格检查的结果。这就需要医生在评估患者时对各种可能的诊断进行全面的思考,并采取适当的检查和测试以排除或确认诊断。这样,将可以更大程度地提高诊断准确性,避免不必要的错误和延误。 

由于门诊时间很短,很少有足够时间进行反思。医生在门诊时往往需要在短时间内快速做出决策,而这种决策依赖于他们的直觉和经验,即系统1思维方式(System 1 thinking,自动、几乎瞬时、反射性和直觉性的思维方式),没有足够的时间进行深入分析和思考,容易导致诊断错误或延误。如果医生有更多时间进行深入思考、查阅文献、分析患者所有数据(即系统2思维方式,System 2 thinking),可能有助于减少诊断错误。系统2思维是一种更加自主、理性和有意识的思维方式,需要较长时间进行信息收集、分析和推理。通过这种思维方式,医生可以更全面地评估患者的情况,避免忽视重要的细节,并提高诊断的准确性。这表明,在改进诊断准确性的过程中,除了完善医学技术和检测外,还需要改善医生的思维方式和决策过程,提供更多的时间和资源来进行全面的评估和反思。这样可以帮助医生更好地避免错误和延误,并提高诊断的准确性。

正在出现的人工智能(AI)的几种方式,可以提高诊断准确性。传统上,医生需要依靠自己的经验和知识来解读医学影像,这可能会因个人差异和疲劳等因素而导致诊断不准确。现在,AI能够通过深度学习大量的医学影像数据,自动找出其中的模式和规律,从而提供更准确的诊断结果。卷积神经网络是一种专门用于图像处理的人工智能算法,可以自动提取影像中的特征,并进行分析和判断。通过与医学专家合作,人工智能可以在诊断过程中提供辅助的意见和建议。这样一来,医生可以借助人工智能的帮助,减少自己的错误和疏忽,从而提高诊断的准确性。人工智能还可以帮助医生更快地完成诊断,并给出治疗建议,提高医疗效率和质量。 

   在乳腺癌筛查中,通常医生需要阅读大量的乳腺X光片,这既费时又容易出错。而现在,通过使用人工智能算法,医生可以借助计算机自动分析和识别潜在的乳腺癌征象,从而提高诊断准确性。一项针对80,000多名乳腺癌筛查妇女的大规模随机研究显示,当在乳腺X光摄影检查中引入AI辅助放射科医师后,诊断准确性有所提高,读片负担也减轻了44%。一项对33个随机试验的结直肠镜检查进行系统分析的研究表明,在引入实时AI机器视觉的情况下,结直肠镜检查中漏掉的息肉和腺瘤数量减少了50%以上,而且利用AI进行增强准确性的检查时间仅增加了平均10秒。

  以往的研究主要集中在使用单一模型、基于图像的数据进行医学诊断,通过深度神经网络模型来学习图像中的特征和模式,从而提高了诊断的准确性。而随着转换模型的进展,使多模态输入成为可能,现在的转换模型能够处理多种类型的输入,例如图像、文本等,从而可以更全面地分析患者的信息。这意味着可以将个人的所有数据输入到系统中,包括电子病历记录中的非结构化文本、图像文件、实验室结果等各种信息。传统上,医生需要手动整理和分析患者的各种数据,例如病历记录、检查结果等,然后输入到生成式AI系统中。系统可以自动分析这些数据,并给出相应的诊断建议。而生成式AI可以通过整合这些不同类型的数据,从而更全面地了解患者的情况。提供更准确的诊断结果和治疗建议。

  在ChatGPT发布后不久,就出现了一些例子,显示它有解决棘手和被误诊问题的潜力。ChatGPT是一种生成式AI模型,可以通过对话形式与用户交流。一些医生尝试使用ChatGPT来讨论和解决一些难以确定和容易被忽视的诊断问题。例如,一个男孩出现了严重不断加重的头痛、异常的步态和生长停滞的情况,在过去的三年里接受了17位医生的评估,但都没有得出诊断。后来男孩的母亲把他的症状输入到ChatGPT里,最终找到了隐匿性脊柱裂的正确诊断,并进行了神经外科手术处理,有了明显的改善。另一个类似的故事是,一个女性患者出现了一些与新冠病毒感染相关的症状,多次就医,见过几个不同的医生。最终被诊断为长期新型冠状病毒感染,目前尚无有效治疗方法。后来,这个患者的亲戚将她的症状和实验室检查结果输入ChatGPT。通过分析和比对,这个AI模型给出了一个可能被医生忽略的疾病名称:边缘性脑炎(limbic encephalitis)。随后,通过抗体检测获得确诊。这种疾病的治疗方法是经静脉输入免疫球蛋白,患者使用后获得疗效。上述例子说明生成式AI,可以帮助医生找到之前被忽视的诊断,并且提供已知的治疗方案。

 这些个案是一些特殊的例子,并不能改变整个医疗实践的现有方式。也不能因为个别的成功例子,而过分依赖AI诊断。目前,医生的专业判断和临床经验仍然是诊断的主体。在现实中,使用ChatGPT的专业人员都知道,与ChatGPT进行专业方面的对话,常常会给出错误的信息,包括错误的诊断。人们可能更关注那些通过ChatGPT得到的正确诊断的案例,而不太关注那些给出的错误诊断。因此,对ChatGPT的误诊往往也会被忽视。

那么,是否可以尝试使用麻省总医院的病例记录的经验来解决误诊的问题呢?麻省总院的病例记录包含了各种复杂的诊断,由经验丰富的医生提出。这些病例记录已经保存了100年以上,每两周都会在《New England Journal of Medicine》上以临床病理病例讨论的形式发表个例报告。这些记录可以提供给医生们学习和参考,帮助解决各种复杂的诊断问题。使用这些病例记录可能更为可靠和有价值,因为它们是由实际的临床实践经验得出的,而不是由AI模型生成的。

最近的一项随机研究的目标就是比较20位内科医生和一个大型语言AI模型(large language model,LLM)在鉴别诊断方面的表现。研究使用了300多个临床病例,包括了各种不同的诊断情况。通过比较医生和语言AI模型的诊断结果,希望了解在这项任务上,医生和AI模型之间的差异和表现。研究发现,对于诊断的准确性来说,LLM的表现几乎是医生的两倍(分别为59.1%和33.6%)。当医生使用搜索功能或可以使用LLM时,他们的诊断准确性表现了明显的提高。这说明,使用大型语言AI模型可以帮助医生们提高诊断的准确率。这项研究对以往有关LLM与医生在诊断准确性方面的对比观察,做了进一步的验证和扩展。不过,这些研究和讨论的临床病例都是非常疑难的病例,通常不太可能代表医生们在实际临床中遇到的诊断病例。这些疑难病例对罕见疾病的正确诊断能有帮助,而LLM在这些特殊病例的诊断中具有较高的准确性。

研究另一种标准的AI模型(不是LLM模型)的诊断方法,采用医学病例摘录来诊断住院患者的常见病症,例如肺炎、心力衰竭或慢性阻塞性肺疾病等。这项研究采用了随机设计,以确定患者是否患有这些疾病。使用标准的AI模型也可以提高诊断的准确性。但是,如果有意使用了带有偏见的模型(例如根据年龄的增加,给予肺炎较高的诊断概率),这导致了诊断准确性的显著降低。即使告知医生提供的模型可能具有某种偏见的情况下,也无法减少这种诊断准确性的降低。通过使用这种有偏见的模型,可以评估医生在面对偏见模型给出的结果时的反应和决策,以便改进和优化AI模型以降低偏见和提高准确性。

这项研究的发现引发了有关自动化偏见(automation bias)的考虑。也就是说,医生可能会错误地对AI产生信任,并愿意接受AI模型的诊断结果,被称为自动化偏见。使用大型语言模型的诊断也存在系统性的年龄、种族和性别偏见等自动化偏见的问题。由于自动化偏见的问题,可能是医生在诊断决策或判断中过度依赖和信任该系统,而忽视了其他的信息来源或判断途径。这种偏见可能导致人们接受错误的自动化决策,而不经过充分的审查和思考。

值得注意的是,医生对AI的偏见是双向性的。最近对180名放射科医生进行的一项随机研究,通过使用或不使用卷积神经网络AI模型的支持,来评估了对胸部X射线解读的准确性。研究发现,医生们对AI的准确性有一定的偏见,偏见会影响他们对使用AI进行医学影像解读的信任度。通过对比发现,医生在使用AI支持时的影像解读准确性较高。尽管使用AI支持的解读结果更为准确性,但许多医生仍然坚持自己的观点和偏见,对AI的技术和应用存在疑虑。一些放射科医生表现出了"自动化忽视"(automation neglect)的现象,对自己的诊断结果非常自信,并对AI的解读结果抱有怀疑态度。

迄今为止的证据显示,生成式AI在提高诊断准确性方面具有真实的潜力,但需要解决偏见的问题。早在考虑使用AI之前,已经有足够的证据表明医生的偏见是导致医学诊断错误的重要因素之一,例如40岁以下患者心脏病发作在急诊室中误诊的现象等。因此,基础AI模型如GPT-4、Llama2和最近的Gemini都进行了偏见训练。这种训练可以使AI模型在生成文本时更符合人类的思维和习惯,提高生成文本的自然度和可读性,但也可能在某些方面仍存在偏见或歧视。很少有LLM(语言模型)专门针对改善医学诊断进行细化调整,偏见训练和提供最新的医学数据。这可能会导致LLM生成的医学诊断结果不准确或过时,而对临床医生的诊断过程产生不良影响,导致错误的诊断和治疗方案。因此,对LLM进行针对医学诊断的细化调整和偏见训练是必要的,以提高准确性和可靠性,确保生成的结果是可信的和代表最新的医学知识。

尽管AI参与临床诊断并非完美无缺,然而人们很容易忘记,医生无法阅读和掌握所有相关疾病的最新医学文献,因为数量太多。能够跟上大约10,000种人类疾病的全部医学文献对医生个人来说是不可能的。AI深度学习和神经网络研究先驱,图灵奖获得者,Geoffrey Hinton说:“无论医学将要做什么,几乎所有的事情都会是好的,因为医学可以为人类带来很多好处……将来我们会有一位见过1亿名患者的家庭医生,而且将是一位更好的家庭医生”。 OpenAI创始人之一,Ilya Sutskever说:“如果你有一台AI计算机,一台设计为医生的通用AI,它将拥有完整而详尽的医学文献,拥有数十亿个小时的临床经验。”这种超级智能的AI医生有望在医学领域发挥巨大的作用,改善诊断和医疗流程,提高患者的健康水平。虽然目前尚未实现这一目标,但在未来的几年中,随着不断发展更强大和专用于医疗的AI模型,越来越有可能实现AI在提供第二方诊断和医疗意见方面发挥宝贵作用。这种AI将利用自动化系统2的机器思维(System 2 machine-thinking),帮助我们朝着消除诊断错误这一难以达到,但必须追求的目标前进。

Toward the eradication of medical diagnostic errors. SCIENCE   25 Jan 2024  Vol 383Issue 6681



https://m.sciencenet.cn/blog-3302154-1420705.html

上一篇:世界癌症日:癌症研究要为众多人而创新
下一篇:健康的生活方式降低癌症死亡风险

6 宁利中 许培扬 农绍庄 杨正瓴 孙颉 尤明庆

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 07:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部