📰 正文
胸部X光(CXR)是医学影像诊断中的核心工具,每年全球执行超过 42 亿次 影像检查。然而,由于对关键解剖结构的系统性评估耗时,放射科医生的工作负担较重。尽管近年来 AI 技术 在 CXR 影像分类、分割和自动报告生成等任务上取得了进展,但这些 AI 模型通常是 孤立工作的,难以无缝集成到实际的临床流程中。
大语言模型(如 GPT-4 和 LLaVA-Med)已经在医疗推理任务中展示了强大的通用能力,但由于幻觉现象(hallucination)、缺乏透明性 和 难以进行多步诊断推理,它们在实际临床应用中仍然存在局限性。
为了克服上述挑战, MedRAX应用而生,这是第一个能够无缝集成多个 CXR 影像分析工具和多模态大语言模型(LMM)的 AI 代理框架,旨在提供自动化、多步推理的 CXR 影像解读系统。
MedRAX是什么?
MedRAX(Medical Reasoning Agent for Chest X-ray)是一个创新的医学推理代理系统,旨在提升胸部X光片(CXR)的自动化分析能力,特别是在临床环境中对复杂医学问题的解答。
MedRAX将最先进的CXR分析工具与多模态大语言模型无缝集成到一个统一的框架中,专门用于 解读胸部 X 光片(CXR),无需额外训练。
帮助医生 自动分析影像、回答医学问题,并辅助诊断。它整合了 大语言模型(LLM) 和 多个医学影像 AI 工具,可以像一名智能助手一样,帮助医生处理复杂的医学影像问题。
想象一下:医生在看一张 X 光片时,可能会有很多问题,比如:
“病人的肺部有没有异常?”
“如果有,具体是什么类型的疾病?”
“病灶在哪里?”
“和之前的影像比,病情有没有加重?”
“医生应该如何描述影像,生成病历报告?”
目前,医生需要 逐个检查 影像的不同部分,并 手动分析和记录,这既耗时又容易出错。而 MedRAX 可以像智能助手一样,帮医生回答这些问题,并提供 详细的医学推理过程,让医生能够快速得到准确答案。
MedRAX 解决了哪些问题?
- 解决当前医学 AI 各自为战、难以协同的问题
目前的 AI 医学影像分析工具各自独立,每个模型只能完成一个特定任务,比如:
CheXagent 只能回答 X 光影像的简单问题,比如“影像中有没有病变?”。
LLaVA-Med 只能进行影像的文字描述,但无法分割病灶区域。
MedSAM 只能做医学影像分割,但无法给出医学诊断。
这些 AI 工具 各做各的,彼此无法沟通,医生需要自己去结合不同的 AI 结果,这非常麻烦。
🔹 MedRAX 的优势:
无缝整合 这些 AI 工具,医生只需要输入一个问题,MedRAX 就会自动调用最合适的 AI 工具。
多步推理,不像传统 AI 只回答单个问题,MedRAX 可以综合不同工具的信息,形成完整的诊断思路。
🌟 举个例子: 假设医生想知道:“这张 X 光片里有没有肺炎?”
普通 AI:只能回答 “可能有” 或 “可能没有”,但不告诉你为什么。
MedRAX: 1.
先用 CheXagent 进行初步筛查,看看有没有可疑病灶。
如果有疑问,调用分割模型(MedSAM),确认病变区域。
再调用 LLaVA-Med 进行详细描述,判断病灶是否符合肺炎特征。
最后结合所有信息,给出完整回答:“这张 X 光片显示左肺有感染迹象,可能是肺炎,建议进一步 CT 检查。”
✅ 这样,医生可以得到更完整、更准确的答案,而不是单一的 AI 预测。
MedRAX 交互流程
- 解决大语言模型(GPT-4o、Llama-3.2-90B)在医学应用中的“幻觉”问题
大语言模型(LLM)如 GPT-4o 和 Llama-3.2-90B 在医学领域的主要问题是:
会“编造”医学信息(医学幻觉),有时候会给出看似专业但实际上错误的回答。
不够透明,医生无法知道 AI 是怎么得出答案的,缺乏可信度。
难以进行多步推理,无法系统分析影像,而是直接给出可能错误的结论。
🔹 MedRAX 的优势:
采用 ReAct(Reasoning and Acting)智能推理框架,像医生一样,一步步分析影像,避免错误推理。
所有推理步骤可追溯,医生可以查看 MedRAX 是如何一步步得出结论的,增加透明度。
可以结合多个 AI 工具的结果,进行综合分析,而不是单凭 LLM 做决定。
🌟 举个例子: 医生提问:病人的气管插管是否放置正确?
GPT-4o:可能会回答 “是的” 或 “不是”,但不会告诉你依据。
MedRAX: 1.
先用影像分类 AI(CheXagent)判断影像里是否有插管。
再用分割 AI(MedSAM)分析插管的具体位置。
最后用 VQA AI(LLaVA-Med)分析插管的形态和位置是否符合医学标准。
生成完整的解释:“插管的位置偏左,可能需要重新调整。”
✅ MedRAX 不只是简单给“是”或“否”的答案,而是提供完整的推理过程,医生可以更放心地使用 AI 结果。
- 解决传统 AI 无法适应新任务、难以更新的问题
目前的一些医学 AI 代理(如 MDAgents、MMedAgent)如果要加入新的医学工具,就必须重新训练整个模型,这使得它们难以适应不断变化的医学需求。
🔹 MedRAX 的优势:
采用 模块化设计,可以像“乐高积木”一样,随时添加或替换新的 AI 工具,无需重新训练整个系统。
支持 本地运行 和 云端部署,适应不同医院的需求,确保医疗数据安全。
🌟 举个例子: 假设有一款新的 AI 肺癌检测模型 发布了,医院想要使用:
普通 AI 代理:需要 重新训练整个模型,可能需要 几个月时间 才能上线。
MedRAX:
只需要 添加新模型的 API,医生可以 立即使用,不影响其他功能。
✅ 这样,医院可以随时引入最新的医学 AI 技术,提高诊断效率和准确性。
MedRAX 取得了哪些突破?
1️⃣ 在医学影像解读任务上超越现有 AI 在 ChestAgentBench 和 CheXbench 两个医学 AI 评测基准中,MedRAX 取得了 最高准确率:
2️⃣ 真实案例验证 MedRAX 诊断更精准
案例1:医疗设备识别 → MedRAX 识别正确,GPT-4o 误判。
案例2:复杂疾病诊断 → MedRAX 正确诊断 左侧气胸,GPT-4o 误判为 右肺炎。
MedRAX 的主要功能
🔍 1. 视觉问答(VQA)
💡 作用:
允许医生对 X 光影像 自由提问,MedRAX 结合医学 AI 工具和 LLM 智能回答。
例如:
“病人的肺部有没有异常?”
“可以用专业术语描述这张影像吗?”
“影像中有什么值得关注的地方?”
🛠️ 使用的 AI 工具:
CheXagent(基于 850 万张 X 光训练的视觉语言模型)
LLaVA-Med(专门训练的生物医学视觉语言模型)
🌟 例子:
医生输入:
“病人的 X 光片中是否显示有肺结节?”
MedRAX 回答:
“在右肺上叶可见一个 直径约 1.5cm 的结节,边界清晰,可能为 良性病变,建议进一步 CT 检查。”
🎯 2. 病灶分割(Segmentation)
💡 作用:
自动检测 并 分割 X 光片中的病变区域,帮助医生精准定位病变。
适用于:
肺炎病灶
肺结节
气胸
胸腔积液
骨折
肿瘤等
🛠️ 使用的 AI 工具:
MedSAM(可分割 10 种影像类型,覆盖 30 多种疾病)
ChestX-Det(专注于 X 光病灶检测)
🌟 例子:
医生输入:
“请分割出 X 光片中的肺炎区域。”
MedRAX 生成图像: (带有红色高亮区域,显示肺部炎症的位置)
📌 3. 目标定位(Grounding)
💡 作用:
自动标注 影像中的重要解剖结构或病灶,例如:
“箭头指示病变区域”
“在 X 光片中找到气胸的位置”
“标记导管的位置是否正确”
🛠️ 使用的 AI 工具:
Maira-2(专门针对放射科影像的视觉标注模型)
🌟 例子:
医生输入:
“这张 X 光片的气胸位置在哪里?”
MedRAX 回答 + 标注图像:
“左肺上部有明显的 肺萎陷,符合 气胸特征,如图所示。”
(自动在 X 光片上标出气胸区域)
📑 4. 自动报告生成(Radiology Report Generation)
💡 作用:
自动撰写专业影像学报告,节省医生时间,减少人为错误。
适用于:
影像描述
病理发现
诊断结论
建议
🛠️ 使用的 AI 工具:
CheXpert Plus(基于 22.3 万份专家报告训练)
🌟 例子:
医生输入:
“请为这张 X 光片生成一份影像报告。”
MedRAX 生成报告:
markdown复制编辑影像描述:
- 右肺上叶可见 1.5cm 结节,边界清晰。
- 双侧肺野透明度正常,无明显浸润阴影。
- 气管居中,未见明显偏移。
诊断建议:
- 右肺结节,考虑良性病变,建议 6 个月后复查 CT。
- 无明显急性肺部感染表现。
⚕️ 5. 疾病分类(Disease Classification)
💡 作用:
自动识别 X 光片中的疾病类别,例如:
肺炎
气胸
肺结节
肺不张
肺水肿
心脏扩大
肋骨骨折
🛠️ 使用的 AI 工具:
TorchXRayVision(可分类 18 种病变,基于多个数据集训练)
🌟 例子:
医生输入:
“这张 X 光片显示了什么病变?”
MedRAX 回答:
“检测到 双侧肺部炎症,高度怀疑 病毒性肺炎,建议结合临床症状进一步评估。”
🖼️ 6. X 光影像生成(Synthetic CXR Generation)
💡 作用:
根据文本描述生成 X 光影像,用于:
医学教学
AI 训练
病变模拟
🛠️ 使用的 AI 工具:
RoentGen(基于 Stable Diffusion 训练)
🌟 例子:
医生输入:
“请生成一张典型的左肺炎 X 光片。”
MedRAX 生成影像: (生成一张 左肺炎的 X 光影像)
📊 7. 影像比对(Comparison & Progression Analysis)
💡 作用:
比较不同时间点的 X 光片,判断病情是否加重或好转。
适用于:
肺炎病灶变化
肿瘤大小变化
肺水肿改善情况
🛠️ 使用的 AI 工具:
结合 分割工具 + 分类工具 进行比对分析
🌟 例子:
医生输入:
“病人的肺炎病灶和 2 周前的影像相比有什么变化?”
MedRAX 回答:
“相比 2 周前:
右肺病灶缩小 30%
浸润影减少,肺炎明显改善
建议继续抗炎治疗,1 个月后复查。”
MedRAX 的技术方法
MedRAX 采用了一种创新的 AI 代理架构,结合 大语言模型(LLM) 和 专门的医学影像分析工具,实现 多步推理(Multi-Step Reasoning) 和 任务自动化(Task Automation)。其核心技术方法如下:
1️⃣ 体系架构:LLM 驱动的 AI 代理
MedRAX 采用 LLM 代理架构,由 三个核心模块 组成: 1.
推理引擎(Reasoning Engine):由 GPT-4o 或 Llama-3.2-90B 驱动,负责解析医学问题、分解任务,并规划 AI 工具调用顺序。
工具集成模块(Perceptual Modules):整合多个专门的医学 AI 模型,如 CheXagent、MedSAM、TorchXRayVision,用于影像分类、病变分割、自动报告生成等任务。
行动机制(Action Mechanism):控制 AI 代理如何调用不同工具,并将多个模型的结果进行合并,以生成最终回答。
🔹 关键技术点
模块化设计:不同 AI 工具可插拔,适应不同医疗任务。
可扩展性:无需额外训练,可动态添加新工具。
2️⃣ ReAct 逻辑推理框架
MedRAX 采用 ReAct(Reasoning + Acting)框架,让 AI 代理像医生一样,先思考,再执行,确保诊断逻辑清晰可追溯。
📌 ReAct 逻辑流程 1.
观察(Observation):分析用户输入(如医学问题、X 光片)。
思考(Thought):确定需要使用哪些 AI 工具(如影像分割、报告生成等)。
行动(Action):执行 AI 工具,获取分析结果。
循环(Iteration):重复上述步骤,直到完成所有推理步骤。
📜 伪代码
python复制编辑while not done:
thoughts = reason(state, memory) # 计算推理步骤
if requires_user_input(thoughts):
ask_user(thoughts) # 需要额外信息
elif can_generate_response(thoughts):
return generate_final_response(thoughts, memory) # 生成最终答案
else:
tool = select_tool(thoughts) # 选择合适的医学 AI 工具
result = execute(tool, state) # 运行工具并获取结果
memory.add(result) # 存储到短期记忆
🔹 关键技术点
动态推理链(Dynamic Reasoning Loop):支持复杂多步任务,如 分割 ➝ 分类 ➝ 生成报告。
短期记忆(Memory Buffer):存储中间结果,防止重复计算。
3️⃣ 主要 AI 工具集成
MedRAX 整合了多个专门的 医学影像 AI 模型,这些工具分工明确,共同完成复杂的医学影像解读任务。
🔹 关键技术点
API 交互:MedRAX 通过 JSON API 调用这些工具,确保信息流畅传递。
工具调度(Tool Selection):AI 代理会根据问题类型 智能选择最合适的工具,而不是盲目调用所有工具。
4️⃣ 算法优化:工具选择策略
📌 目标
传统 AI 代理可能会 调用冗余工具,导致计算资源浪费。
MedRAX 采用 智能工具选择算法,让 AI 仅使用必要的工具,提高效率。
📜 关键算法
python复制编辑def select_tool(thoughts, available_tools):
# 依据问题类型选择合适工具
if "影像分割" in thoughts:
return MedSAM
elif "病变分类" in thoughts:
return TorchXRayVision
elif "医学报告" in thoughts:
return CheXpert_Plus
else:
return None # 无需额外工具
📊 结果
减少 30% 计算资源消耗,避免调用不必要的 AI 工具。
执行速度提高 1.5 倍,保证实时医学影像分析的可行性。
5️⃣ 透明化 & 交互界面
MedRAX 采用 Gradio 搭建用户界面,支持:
DICOM 影像上传
多轮对话(Multi-turn Chat)
可视化分析结果
📌 透明化 AI 诊断
所有 AI 处理步骤可追踪
医生可查看 AI 的思考过程
支持用户修改 AI 生成的报告
🔹 关键技术点
可解释 AI(Explainable AI, XAI),让医生能信任 AI 诊断结果。
人机协作,医生可随时调整 AI 的建议,提高临床适应性。
MedRAX 实验结果分析
MedRAX 在多个医学影像基准测试(ChestAgentBench 和 CheXbench)中进行了评估,证明了其在 胸部 X 光(CXR)影像解读 方面的 领先性能。实验结果表明,MedRAX 超越了目前最先进的医学 AI 模型和大语言模型(LLM),在 多步医学推理、影像分类、病变检测、诊断等任务 上取得了 最佳表现。
1️⃣ ChestAgentBench 评测
📝 评测数据集:
2,500 道医学问题
涵盖 7 大核心任务 1.
病变检测(Detection)
病变分类(Classification)
病变定位(Localization)
影像比较(Comparison)
病变关系分析(Relationship)
诊断推理(Diagnosis)
病变特征描述(Characterization)
📌 评测方法:
测量不同 AI 模型在 7 大任务上的准确率
比较 MedRAX 与其他 AI 模型的表现
📊 评测结果
📈 结论
MedRAX 在所有任务上都取得了最佳表现(63.1%),比 GPT-4o 高 6.7%。
专门的医学 AI(如 CheXagent)虽然擅长特定任务,但整体表现低于 MedRAX。
大语言模型(如 Llama-3.2-90B 和 GPT-4o)在医学任务上虽有不错的推理能力,但缺乏医学影像分析能力。
2️⃣ CheXbench 评测
📝 评测数据集:
618 道 X 光影像问答任务
视觉问答(VQA):从 Rad-Restruct 和 SLAKE 数据集中选取 238 道问题
细粒度影像-文本推理:从 OpenI 数据集中选取 380 道问题
📌 评测方法:
测试不同 AI 理解和解释 X 光影像 的能力
VQA 任务:AI 是否能够回答 自由文本影像问题
细粒度推理:AI 是否能够区分 影像之间的微小差异
📊 评测结果
📈 结论
MedRAX 在 VQA 任务上表现最佳(68.7% 和 82.9%),显著超越 GPT-4o 和 CheXagent。
细粒度推理仍然是所有 AI 代理的挑战,最高准确率(52.6%)仍低于期望,需要进一步优化。
3️⃣ 真实案例分析
为了验证 MedRAX 是否真正有临床价值,我们对 真实临床案例 进行了测试。
案例 1️⃣:医疗设备识别
📌 任务:医生需要识别 X 光片中的 插管类型。
GPT-4o 回答:
“影像中显示 气管插管,位置居中。”
❌ 错误(实际上是胸管)
MedRAX 回答:
先调用影像分类工具 识别影像是否含有插管
再调用视觉问答 AI 检查插管形态
最终结论:“影像显示 胸管,插入左侧胸腔。”
✅ 正确识别
案例 2️⃣:复杂疾病诊断
📌 任务:医生询问 X 光片中的 主要病变。
GPT-4o 误诊:
“影像显示 右肺炎,建议抗生素治疗。”
❌ 错误(实际病变是左侧气胸)
MedRAX 诊断流程: 1.
调用报告生成工具 识别影像异常
调用分割工具 分析肺部病灶区域
综合分析:最终诊断 左侧气胸
✅ 正确诊断
🔍 结论
✅ MedRAX 实验结果总结
在 ChestAgentBench 评测中,MedRAX 取得 63.1% 的最高准确率,比 GPT-4o 高 6.7%。
在 CheXbench 评测中,MedRAX 以 68.1% 的准确率领先,VQA 任务表现尤为突出。
真实临床案例测试,MedRAX 在医疗设备识别、复杂病变诊断上均优于 GPT-4o。
MedRAX 结合 LLM 和医学 AI 工具,提供比单一 AI 模型更精准、透明的医学推理能力。
🚀 MedRAX 代表了医学影像 AI 发展的新方向,展示了 AI 在 X 光影像解读中的巨大潜力!
项目地址:https://bowang-lab.github.io/MedRAX/
GitHub:https://github.com/bowang-lab/MedRAX
论文:https://arxiv.org/pdf/2502.02673
数据集:https://huggingface.co/datasets/wanglab/chest-agent-bench