哈佛研究：AI在急诊室诊断准确率超过人类医生

研究概述

一项由哈佛医学院和贝斯以色列女执事医学中心（Beth Israel Deaconess Medical Center）的医师与计算机科学家组成的研究团队开展的研究，本周发表在《科学》（Science）杂志上。该研究通过一系列实验评估了OpenAI的AI模型与人类医师在多种医疗场景下的表现对比。

研究聚焦于贝斯以色列急诊室的76名患者，将两名内科主治医师的诊断与OpenAI的o1和4o模型生成的诊断进行对比。这些诊断由另外两名主治医师进行评估，评估者并不知道诊断结果来自人类还是AI。

研究团队强调，他们没有对数据进行任何"预处理"——AI模型获得的信息与电子病历中诊断时可用的信息完全相同。

在初步急诊分诊阶段——即患者信息最少、决策最紧迫的时刻——o1模型的表现尤为突出：

哈佛医学院AI实验室负责人、该研究的主要作者之一阿尔琼·曼莱（Arjun Manrai）在新闻稿中表示：“我们在几乎所有基准上测试了该AI模型，它不仅超越了之前的模型，也超过了我们设定的医师基线。”

研究人员明确指出，该研究并未声称AI已准备好在急诊室做出真正的生死决策。研究呼吁"亟需进行前瞻性试验，在真实患者护理环境中评估这些技术"。

研究还指出，他们仅测试了模型处理文本信息的能力，“现有研究表明，当前基础模型在处理非文本输入时的推理能力更为有限。”

贝斯以色列医生、该研究另一位主要作者亚当·罗德曼（Adam Rodman）警告称，目前"还没有关于AI诊断问责的正式框架"，患者仍然"希望由人类引导他们做出生死攸关的决定和具有挑战性的治疗决策"。

急诊医生克里斯汀·潘塔加尼（Kristen Panthagani）在评论该研究时指出，这是一个"引发了过度炒作的有趣AI研究"，因为研究将AI诊断与内科医师而非急诊医师进行比较。她认为：“如果我们要将AI工具与医师的临床能力进行比较，我们首先应该与真正从事该专业的医师进行比较。”

她补充道：“作为一名首次接诊患者的急诊医生，我的首要目标不是猜测你的最终诊断，而是判断你是否有可能危及生命的疾病。”

这项研究标志着AI在医疗诊断领域的重要进展，但距离临床实际应用仍有诸多障碍需要跨越，包括监管审批、责任认定、模型对非文本数据的处理能力等关键问题。