📰 正文

胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床流程中。

大语言模型(如 GPT-4 和 LLaVA-Med)已经在医疗推理任务中展示了强大的通用能力,但由于幻觉现象(hallucination)、缺乏透明性 和 难以进行多步诊断推理,它们在实际临床应用中仍然存在局限性。

为了克服上述挑战, MedRAX应用而生,这是第一个能够无缝集成多个 CXR 影像分析工具和多模态大语言模型(LMM)的 AI 代理框架,旨在提供自动化、多步推理的 CXR 影像解读系统。

MedRAX是什么?

MedRAX(Medical Reasoning Agent for Chest X-ray)是一个创新的医学推理代理系统,旨在提升胸部X光片(CXR)的自动化分析能力,特别是在临床环境中对复杂医学问题的解答。

MedRAX将最先进的CXR分析工具与多模态大语言模型无缝集成到一个统一的框架中,专门用于 解读胸部 X 光片(CXR),无需额外训练。

帮助医生 自动分析影像、回答医学问题,并辅助诊断。它整合了 大语言模型(LLM) 和 多个医学影像 AI 工具,可以像一名智能助手一样,帮助医生处理复杂的医学影像问题。

image

想象一下:医生在看一张 X 光片时,可能会有很多问题,比如:

“病人的肺部有没有异常?”

“如果有,具体是什么类型的疾病?”

“病灶在哪里?”

“和之前的影像比,病情有没有加重?”

“医生应该如何描述影像,生成病历报告?”

目前,医生需要 逐个检查 影像的不同部分,并 手动分析和记录,这既耗时又容易出错。而 MedRAX 可以像智能助手一样,帮医生回答这些问题,并提供 详细的医学推理过程,让医生能够快速得到准确答案。

MedRAX 解决了哪些问题?

  1. 解决当前医学 AI 各自为战、难以协同的问题

目前的 AI 医学影像分析工具各自独立,每个模型只能完成一个特定任务,比如:

CheXagent 只能回答 X 光影像的简单问题,比如“影像中有没有病变?”。

LLaVA-Med 只能进行影像的文字描述,但无法分割病灶区域。

MedSAM 只能做医学影像分割,但无法给出医学诊断。

这些 AI 工具 各做各的,彼此无法沟通,医生需要自己去结合不同的 AI 结果,这非常麻烦。

🔹 MedRAX 的优势:

无缝整合 这些 AI 工具,医生只需要输入一个问题,MedRAX 就会自动调用最合适的 AI 工具。

多步推理,不像传统 AI 只回答单个问题,MedRAX 可以综合不同工具的信息,形成完整的诊断思路。

🌟 举个例子: 假设医生想知道:“这张 X 光片里有没有肺炎?”

普通 AI:只能回答 “可能有” 或 “可能没有”,但不告诉你为什么。

MedRAX: 1.

先用 CheXagent 进行初步筛查,看看有没有可疑病灶。

如果有疑问,调用分割模型(MedSAM),确认病变区域。

再调用 LLaVA-Med 进行详细描述,判断病灶是否符合肺炎特征。

最后结合所有信息,给出完整回答:“这张 X 光片显示左肺有感染迹象,可能是肺炎,建议进一步 CT 检查。”

✅ 这样,医生可以得到更完整、更准确的答案,而不是单一的 AI 预测。

MedRAX 交互流程

image


  1. 解决大语言模型(GPT-4o、Llama-3.2-90B)在医学应用中的“幻觉”问题

大语言模型(LLM)如 GPT-4o 和 Llama-3.2-90B 在医学领域的主要问题是:

会“编造”医学信息(医学幻觉),有时候会给出看似专业但实际上错误的回答。

不够透明,医生无法知道 AI 是怎么得出答案的,缺乏可信度。

难以进行多步推理,无法系统分析影像,而是直接给出可能错误的结论。

🔹 MedRAX 的优势:

采用 ReAct(Reasoning and Acting)智能推理框架,像医生一样,一步步分析影像,避免错误推理。

所有推理步骤可追溯,医生可以查看 MedRAX 是如何一步步得出结论的,增加透明度。

可以结合多个 AI 工具的结果,进行综合分析,而不是单凭 LLM 做决定。

🌟 举个例子: 医生提问:病人的气管插管是否放置正确?

GPT-4o:可能会回答 “是的” 或 “不是”,但不会告诉你依据。

MedRAX: 1.

先用影像分类 AI(CheXagent)判断影像里是否有插管。

再用分割 AI(MedSAM)分析插管的具体位置。

最后用 VQA AI(LLaVA-Med)分析插管的形态和位置是否符合医学标准。

生成完整的解释:“插管的位置偏左,可能需要重新调整。”

✅ MedRAX 不只是简单给“是”或“否”的答案,而是提供完整的推理过程,医生可以更放心地使用 AI 结果。


  1. 解决传统 AI 无法适应新任务、难以更新的问题

目前的一些医学 AI 代理(如 MDAgents、MMedAgent)如果要加入新的医学工具,就必须重新训练整个模型,这使得它们难以适应不断变化的医学需求。

🔹 MedRAX 的优势:

采用 模块化设计,可以像“乐高积木”一样,随时添加或替换新的 AI 工具,无需重新训练整个系统。

支持 本地运行 和 云端部署,适应不同医院的需求,确保医疗数据安全。

🌟 举个例子: 假设有一款新的 AI 肺癌检测模型 发布了,医院想要使用:

普通 AI 代理:需要 重新训练整个模型,可能需要 几个月时间 才能上线。

MedRAX:

只需要 添加新模型的 API,医生可以 立即使用,不影响其他功能。

✅ 这样,医院可以随时引入最新的医学 AI 技术,提高诊断效率和准确性。


MedRAX 取得了哪些突破?

1️⃣ 在医学影像解读任务上超越现有 AI 在 ChestAgentBench 和 CheXbench 两个医学 AI 评测基准中,MedRAX 取得了 最高准确率:

image

2️⃣ 真实案例验证 MedRAX 诊断更精准

案例1:医疗设备识别 → MedRAX 识别正确,GPT-4o 误判。

案例2:复杂疾病诊断 → MedRAX 正确诊断 左侧气胸,GPT-4o 误判为 右肺炎。

MedRAX 的主要功能

image


🔍 1. 视觉问答(VQA)

💡 作用:

允许医生对 X 光影像 自由提问,MedRAX 结合医学 AI 工具和 LLM 智能回答。

例如:

“病人的肺部有没有异常?”

“可以用专业术语描述这张影像吗?”

“影像中有什么值得关注的地方?”

🛠️ 使用的 AI 工具:

CheXagent(基于 850 万张 X 光训练的视觉语言模型)

LLaVA-Med(专门训练的生物医学视觉语言模型)

🌟 例子:

医生输入:

“病人的 X 光片中是否显示有肺结节?”

MedRAX 回答:

“在右肺上叶可见一个 直径约 1.5cm 的结节,边界清晰,可能为 良性病变,建议进一步 CT 检查。”


🎯 2. 病灶分割(Segmentation)

💡 作用:

自动检测 并 分割 X 光片中的病变区域,帮助医生精准定位病变。

适用于:

肺炎病灶

肺结节

气胸

胸腔积液

骨折

肿瘤等

🛠️ 使用的 AI 工具:

MedSAM(可分割 10 种影像类型,覆盖 30 多种疾病)

ChestX-Det(专注于 X 光病灶检测)

🌟 例子:

医生输入:

“请分割出 X 光片中的肺炎区域。”

MedRAX 生成图像: (带有红色高亮区域,显示肺部炎症的位置)


📌 3. 目标定位(Grounding)

💡 作用:

自动标注 影像中的重要解剖结构或病灶,例如:

“箭头指示病变区域”

“在 X 光片中找到气胸的位置”

“标记导管的位置是否正确”

🛠️ 使用的 AI 工具:

Maira-2(专门针对放射科影像的视觉标注模型)

🌟 例子:

医生输入:

“这张 X 光片的气胸位置在哪里?”

MedRAX 回答 + 标注图像:

“左肺上部有明显的 肺萎陷,符合 气胸特征,如图所示。”

(自动在 X 光片上标出气胸区域)


📑 4. 自动报告生成(Radiology Report Generation)

💡 作用:

自动撰写专业影像学报告,节省医生时间,减少人为错误。

适用于:

影像描述

病理发现

诊断结论

建议

🛠️ 使用的 AI 工具:

CheXpert Plus(基于 22.3 万份专家报告训练)

🌟 例子:

医生输入:

“请为这张 X 光片生成一份影像报告。”

MedRAX 生成报告:

markdown复制编辑影像描述:
  - 右肺上叶可见 1.5cm 结节,边界清晰。
  - 双侧肺野透明度正常,无明显浸润阴影。
  - 气管居中,未见明显偏移。

诊断建议:
  - 右肺结节,考虑良性病变,建议 6 个月后复查 CT。
  - 无明显急性肺部感染表现。

⚕️ 5. 疾病分类(Disease Classification)

💡 作用:

自动识别 X 光片中的疾病类别,例如:

肺炎

气胸

肺结节

肺不张

肺水肿

心脏扩大

肋骨骨折

🛠️ 使用的 AI 工具:

TorchXRayVision(可分类 18 种病变,基于多个数据集训练)

🌟 例子:

医生输入:

“这张 X 光片显示了什么病变?”

MedRAX 回答:

“检测到 双侧肺部炎症,高度怀疑 病毒性肺炎,建议结合临床症状进一步评估。”


🖼️ 6. X 光影像生成(Synthetic CXR Generation)

💡 作用:

根据文本描述生成 X 光影像,用于:

医学教学

AI 训练

病变模拟

🛠️ 使用的 AI 工具:

RoentGen(基于 Stable Diffusion 训练)

🌟 例子:

医生输入:

“请生成一张典型的左肺炎 X 光片。”

MedRAX 生成影像: (生成一张 左肺炎的 X 光影像)


📊 7. 影像比对(Comparison & Progression Analysis)

💡 作用:

比较不同时间点的 X 光片,判断病情是否加重或好转。

适用于:

肺炎病灶变化

肿瘤大小变化

肺水肿改善情况

🛠️ 使用的 AI 工具:

结合 分割工具 + 分类工具 进行比对分析

🌟 例子:

医生输入:

“病人的肺炎病灶和 2 周前的影像相比有什么变化?”

MedRAX 回答:

“相比 2 周前:

右肺病灶缩小 30%

浸润影减少,肺炎明显改善

建议继续抗炎治疗,1 个月后复查。”

MedRAX 的技术方法

MedRAX 采用了一种创新的 AI 代理架构,结合 大语言模型(LLM) 和 专门的医学影像分析工具,实现 多步推理(Multi-Step Reasoning) 和 任务自动化(Task Automation)。其核心技术方法如下:


1️⃣ 体系架构:LLM 驱动的 AI 代理

MedRAX 采用 LLM 代理架构,由 三个核心模块 组成: 1.

推理引擎(Reasoning Engine):由 GPT-4o 或 Llama-3.2-90B 驱动,负责解析医学问题、分解任务,并规划 AI 工具调用顺序。

工具集成模块(Perceptual Modules):整合多个专门的医学 AI 模型,如 CheXagent、MedSAM、TorchXRayVision,用于影像分类、病变分割、自动报告生成等任务。

行动机制(Action Mechanism):控制 AI 代理如何调用不同工具,并将多个模型的结果进行合并,以生成最终回答。

🔹 关键技术点

模块化设计:不同 AI 工具可插拔,适应不同医疗任务。

可扩展性:无需额外训练,可动态添加新工具。


2️⃣ ReAct 逻辑推理框架

MedRAX 采用 ReAct(Reasoning + Acting)框架,让 AI 代理像医生一样,先思考,再执行,确保诊断逻辑清晰可追溯。

📌 ReAct 逻辑流程 1.

观察(Observation):分析用户输入(如医学问题、X 光片)。

思考(Thought):确定需要使用哪些 AI 工具(如影像分割、报告生成等)。

行动(Action):执行 AI 工具,获取分析结果。

循环(Iteration):重复上述步骤,直到完成所有推理步骤。

📜 伪代码

python复制编辑while not done:
    thoughts = reason(state, memory)  # 计算推理步骤
    if requires_user_input(thoughts):
        ask_user(thoughts)  # 需要额外信息
    elif can_generate_response(thoughts):
        return generate_final_response(thoughts, memory)  # 生成最终答案
    else:
        tool = select_tool(thoughts)  # 选择合适的医学 AI 工具
        result = execute(tool, state)  # 运行工具并获取结果
        memory.add(result)  # 存储到短期记忆

🔹 关键技术点

动态推理链(Dynamic Reasoning Loop):支持复杂多步任务,如 分割 ➝ 分类 ➝ 生成报告。

短期记忆(Memory Buffer):存储中间结果,防止重复计算。


3️⃣ 主要 AI 工具集成

MedRAX 整合了多个专门的 医学影像 AI 模型,这些工具分工明确,共同完成复杂的医学影像解读任务。

image

🔹 关键技术点

API 交互:MedRAX 通过 JSON API 调用这些工具,确保信息流畅传递。

工具调度(Tool Selection):AI 代理会根据问题类型 智能选择最合适的工具,而不是盲目调用所有工具。


4️⃣ 算法优化:工具选择策略

📌 目标

传统 AI 代理可能会 调用冗余工具,导致计算资源浪费。

MedRAX 采用 智能工具选择算法,让 AI 仅使用必要的工具,提高效率。

📜 关键算法

python复制编辑def select_tool(thoughts, available_tools):
    # 依据问题类型选择合适工具
    if "影像分割" in thoughts:
        return MedSAM
    elif "病变分类" in thoughts:
        return TorchXRayVision
    elif "医学报告" in thoughts:
        return CheXpert_Plus
    else:
        return None  # 无需额外工具

📊 结果

减少 30% 计算资源消耗,避免调用不必要的 AI 工具。

执行速度提高 1.5 倍,保证实时医学影像分析的可行性。


5️⃣ 透明化 & 交互界面

MedRAX 采用 Gradio 搭建用户界面,支持:

DICOM 影像上传

多轮对话(Multi-turn Chat)

可视化分析结果

📌 透明化 AI 诊断

所有 AI 处理步骤可追踪

医生可查看 AI 的思考过程

支持用户修改 AI 生成的报告

🔹 关键技术点

可解释 AI(Explainable AI, XAI),让医生能信任 AI 诊断结果。

人机协作,医生可随时调整 AI 的建议,提高临床适应性。

MedRAX 实验结果分析

MedRAX 在多个医学影像基准测试(ChestAgentBench 和 CheXbench)中进行了评估,证明了其在 胸部 X 光(CXR)影像解读 方面的 领先性能。实验结果表明,MedRAX 超越了目前最先进的医学 AI 模型和大语言模型(LLM),在 多步医学推理、影像分类、病变检测、诊断等任务 上取得了 最佳表现。


1️⃣ ChestAgentBench 评测

📝 评测数据集:

2,500 道医学问题

涵盖 7 大核心任务 1.

病变检测(Detection)

病变分类(Classification)

病变定位(Localization)

影像比较(Comparison)

病变关系分析(Relationship)

诊断推理(Diagnosis)

病变特征描述(Characterization)

📌 评测方法:

测量不同 AI 模型在 7 大任务上的准确率

比较 MedRAX 与其他 AI 模型的表现

📊 评测结果

image

image

📈 结论

MedRAX 在所有任务上都取得了最佳表现(63.1%),比 GPT-4o 高 6.7%。

专门的医学 AI(如 CheXagent)虽然擅长特定任务,但整体表现低于 MedRAX。

大语言模型(如 Llama-3.2-90B 和 GPT-4o)在医学任务上虽有不错的推理能力,但缺乏医学影像分析能力。

2️⃣ CheXbench 评测

📝 评测数据集:

618 道 X 光影像问答任务

视觉问答(VQA):从 Rad-Restruct 和 SLAKE 数据集中选取 238 道问题

细粒度影像-文本推理:从 OpenI 数据集中选取 380 道问题

📌 评测方法:

测试不同 AI 理解和解释 X 光影像 的能力

VQA 任务:AI 是否能够回答 自由文本影像问题

细粒度推理:AI 是否能够区分 影像之间的微小差异

📊 评测结果

image

image

📈 结论

MedRAX 在 VQA 任务上表现最佳(68.7% 和 82.9%),显著超越 GPT-4o 和 CheXagent。

细粒度推理仍然是所有 AI 代理的挑战,最高准确率(52.6%)仍低于期望,需要进一步优化。


3️⃣ 真实案例分析

为了验证 MedRAX 是否真正有临床价值,我们对 真实临床案例 进行了测试。

案例 1️⃣:医疗设备识别

📌 任务:医生需要识别 X 光片中的 插管类型。

GPT-4o 回答:

“影像中显示 气管插管,位置居中。”

❌ 错误(实际上是胸管)

MedRAX 回答:

先调用影像分类工具 识别影像是否含有插管

再调用视觉问答 AI 检查插管形态

最终结论:“影像显示 胸管,插入左侧胸腔。”

✅ 正确识别

image

案例 2️⃣:复杂疾病诊断

📌 任务:医生询问 X 光片中的 主要病变。

GPT-4o 误诊:

“影像显示 右肺炎,建议抗生素治疗。”

❌ 错误(实际病变是左侧气胸)

MedRAX 诊断流程: 1.

调用报告生成工具 识别影像异常

调用分割工具 分析肺部病灶区域

综合分析:最终诊断 左侧气胸

✅ 正确诊断


🔍 结论

✅ MedRAX 实验结果总结

在 ChestAgentBench 评测中,MedRAX 取得 63.1% 的最高准确率,比 GPT-4o 高 6.7%。

在 CheXbench 评测中,MedRAX 以 68.1% 的准确率领先,VQA 任务表现尤为突出。

真实临床案例测试,MedRAX 在医疗设备识别、复杂病变诊断上均优于 GPT-4o。

MedRAX 结合 LLM 和医学 AI 工具,提供比单一 AI 模型更精准、透明的医学推理能力。

🚀 MedRAX 代表了医学影像 AI 发展的新方向,展示了 AI 在 X 光影像解读中的巨大潜力!

项目地址:https://bowang-lab.github.io/MedRAX/

GitHub:https://github.com/bowang-lab/MedRAX

论文:https://arxiv.org/pdf/2502.02673

数据集:https://huggingface.co/datasets/wanglab/chest-agent-bench


来源:MedRAX:一款开创性的医学推理代理,专门用于胸部 X 光片解读 整合了多个专门医学影像 AI 模型