哈佛研究:AI诊断模型在真实急诊测试中优于人类医生

北京时间 2026年4月30日 | 来源:NPR

突破性研究发表于《Science》

哈佛大学医学院和贝斯以色列女执事医疗中心的研究人员周四在《Science》期刊上发表了一项突破性研究。该研究发现,由OpenAI开发的AI推理模型在诊断患者方面表现超过了人类急诊医生。

真实世界数据测试

研究团队对AI模型进行了一系列实验,测试其临床推理能力——包括真实病例,例如一位最初病情好转但随后恶化的肺栓塞患者。AI扫描了患者的医疗记录,怀疑其狼疮病史可能导致了心脏炎症,最终被证实诊断正确。

研究人员在三个时间点对AI模型的诊断能力进行了评估——从急诊分诊阶段到入院阶段。总体而言,AI模型仅凭借电子健康记录和急诊可用的有限信息,就超越了两名经验丰富的医生。

“这个对我来说最重要的结论是——它在急诊科混乱的真实世界数据中也能有效工作,“该研究的临床研究员亚当·罗德曼(Adam Rodman)博士表示。

与顶级医生基线对比

研究的其他部分还聚焦于《新英格兰医学杂志》发表的病例报告和临床摘要,以评估AI模型的推理能力。

“该模型表现优于我们庞大的医生基线组,“哈佛医学院生物医学信息学助理教授拉杰·曼莱(Raj Manrai)说,他是该研究的共同作者之一。

重要限制

作者强调,AI模型仅依赖文本信息,而在实际临床环境中,医生还需要关注影像、声音和非语言等多种输入。此外,急诊科只占患者整个医疗过程中很小的一部分。罗德曼承认,AI不太可能在患者护理的所有阶段都发挥如此出色的表现。

并非取代医生

研究参与者均不认为这些发现支持用AI取代医生,“尽管一些公司可能会这样说和这样做”。罗德曼补充道:“我认为我们确实正在见证技术的深刻变革,它将重塑医学。”

西奈山健康系统首席临床官大卫·莱希(David Reich)博士对这项研究给予了高度评价:“你拥有的东西相当准确,可能已经准备好投入使用。现在的问题是,我们到底该如何将其引入临床实践?”

未来方向

研究人员强调,AI模型需要通过前瞻性试验等严格方式进行测试,以提供更确定的证据。莱希表示:“设计这些试验是一个非常有挑战性的过程,但这项研究是对行动的完美号召。”

来源:NPR