哈佛研究:AI在急诊室诊断准确率超过人类医生

研究概述

一项由哈佛医学院和贝斯以色列女执事医学中心(Beth Israel Deaconess Medical Center)的医师与计算机科学家组成的研究团队开展的研究,本周发表在《科学》(Science)杂志上。该研究通过一系列实验评估了OpenAI的AI模型与人类医师在多种医疗场景下的表现对比。

实验设计

研究聚焦于贝斯以色列急诊室的76名患者,将两名内科主治医师的诊断与OpenAI的o1和4o模型生成的诊断进行对比。这些诊断由另外两名主治医师进行评估,评估者并不知道诊断结果来自人类还是AI。

研究团队强调,他们没有对数据进行任何"预处理"——AI模型获得的信息与电子病历中诊断时可用的信息完全相同。

关键发现

在初步急诊分诊阶段——即患者信息最少、决策最紧迫的时刻——o1模型的表现尤为突出:

  • o1模型在67%的分诊案例中给出了"完全正确或非常接近"的诊断
  • 第一名医师的准确率为55%
  • 第二名医师的准确率为50%

哈佛医学院AI实验室负责人、该研究的主要作者之一阿尔琼·曼莱(Arjun Manrai)在新闻稿中表示:“我们在几乎所有基准上测试了该AI模型,它不仅超越了之前的模型,也超过了我们设定的医师基线。”

重要局限

研究人员明确指出,该研究并未声称AI已准备好在急诊室做出真正的生死决策。研究呼吁"亟需进行前瞻性试验,在真实患者护理环境中评估这些技术"。

研究还指出,他们仅测试了模型处理文本信息的能力,“现有研究表明,当前基础模型在处理非文本输入时的推理能力更为有限。”

伦理与责任争议

贝斯以色列医生、该研究另一位主要作者亚当·罗德曼(Adam Rodman)警告称,目前"还没有关于AI诊断问责的正式框架",患者仍然"希望由人类引导他们做出生死攸关的决定和具有挑战性的治疗决策"。

急诊医生克里斯汀·潘塔加尼(Kristen Panthagani)在评论该研究时指出,这是一个"引发了过度炒作的有趣AI研究",因为研究将AI诊断与内科医师而非急诊医师进行比较。她认为:“如果我们要将AI工具与医师的临床能力进行比较,我们首先应该与真正从事该专业的医师进行比较。”

她补充道:“作为一名首次接诊患者的急诊医生,我的首要目标不是猜测你的最终诊断,而是判断你是否有可能危及生命的疾病。”

未来展望

这项研究标志着AI在医疗诊断领域的重要进展,但距离临床实际应用仍有诸多障碍需要跨越,包括监管审批、责任认定、模型对非文本数据的处理能力等关键问题。

来源:TechCrunchScience