📰 正文

HealthGPT 是由浙江大学、国立大学新加坡等机构联合研发的医疗大视觉-语言模型(Med-LVLM)。

该模型旨在通过一个统一框架,集成医疗领域的视觉理解(comprehension)和视觉生成(generation)能力,提供从诊断问答到图像生成的多功能支持。它基于大语言模型(LLM)并通过创新的异构知识适配技术,将视觉和语言能力无缝整合到医疗场景中。

HealthGPT 包含两个版本:

HealthGPT-M3(3.8 亿参数,轻量版)

HealthGPT-L14(14 亿参数,增强版)

HealthGPT 的核心理念是通过自回归(autoregressive)方法,将理解任务(输出文本)和生成任务(输出图像)统一在一个模型中。

HealthGPT 支持 7 种医学理解任务和 5 种医学生成任务,表现优于最近的统一视觉模型和医学专用模型。

它不仅能回答医疗图像相关的问题(例如:“这个 X 光片显示什么疾病?”),还能生成高质量的医疗图像(例如超分辨率图像或将 CT 转换为 MRI)。

辅助诊断:分析图像,回答问题,写报告,帮助医生判断病情。

图像处理:把模糊图像变清晰,或者把 CT 转成 MRI,方便医生对比。

教学支持:生成示例图像,供医学生学习或研究用。

image


HealthGPT 解决了什么问题?

HealthGPT 针对医疗领域的一些老大难问题,提供了解决方案。以下是它解决的几个关键点: 1.

医疗数据少且难收集

问题:训练智能模型需要大量数据,比如图片和文字说明。日常生活中,我们有无数照片和网络文本,但医疗数据不一样——X 光片、CT 图像数量有限,还得医生花时间标注,收集起来很困难。

解决办法:HealthGPT 不从头开始训练,而是利用一个已经很聪明的大型语言模型,只用少量的医疗数据“调教”一下就行。为了支持这个过程,它还整理了一个专门的数据集 VL-Health,里面有各种医疗图像和相关问题,够用又高效。

看图和生成图像的需求冲突

问题:分析图像(理解)和生成图像(画图)需要的处理方式不同。理解时,模型得抓住重点,比如“这块阴影可能是肿瘤”;生成时,它得记住所有细节,不然生成的图像就不清楚。以前的模型如果同时学这两样,往往会互相干扰——理解好了生成不行,生成好了理解又差。

解决办法:HealthGPT 用了一种叫 H-LoRA 的方法,把理解和生成分开管理,像给它们各分配一个“工作区”,互不干扰。这样,模型既能看懂图,又能画好图。

以前的医疗工具功能太单一

问题:过去的医疗智能工具大多只会分析图像,比如回答问题或写报告,但不会生成图像。医生有时需要更清晰的图像,或者把一种图像转成另一种类型(比如 CT 转 MRI),这些工具帮不上忙。

解决办法:HealthGPT 是个“全能选手”,既能回答问题,也能生成图像。比如,它可以告诉你 X 光片的异常,还能把模糊的 CT 变清晰,或者生成 MRI 图像给医生参考。

训练效率低,计算成本高

问题:传统的多任务模型训练起来很费时间和算力,尤其在医疗这种复杂场景下,效率不高,容易“学不好”。

解决办法:HealthGPT 用了一种更高效的训练方式(H-LoRA 和 三阶段学习),让它学得快又省资源。比如,它先打好基础,再逐步调整,最后针对具体任务优化,比老方法省力不少。

主要功能

HealthGPT 能帮助医生更高效地处理医疗图像和相关任务。其主要功能可以分为两大类:视觉理解(comprehension)和视觉生成(generation)。这两种功能通过一个统一的模型实现,能够在图像分析和生成方面为医生提供全面支持。


  1. 视觉理解功能(看图说话)

HealthGPT 能够分析医疗图像并回答相关问题,像一个“图像解读专家”。它的视觉理解功能主要包括以下几个方面:

医疗图像问答(VQA)

功能:医生上传一张医疗图像(如 X 光、CT、MRI),并询问问题(如“这个图像显示了什么异常?”),HealthGPT 可以准确回答(如“可能是肺炎”)。

应用:帮助医生快速获取图像信息,尤其在紧急情况下,提供及时的分析和解答。

例子:在 VQA-RAD 测试中,HealthGPT 在放射学问题上的得分远超其他模型。

医疗报告生成

功能:根据上传的图像自动生成文字报告,描述图像中的发现(如“左肺部有阴影,可能是炎症”)。

应用:减轻医生的报告工作量,节省大量时间。

例子:对于一张胸部 X 光片,HealthGPT 能够自动生成类似于医生报告的总结。

复杂推理与对话

功能:HealthGPT 不仅能回答单一问题,还可以进行多轮对话和复杂推理。例如,问它“这个阴影是什么引起的?”时,它能结合图像和医学知识,提供推测性的答案。

应用:适用于需要深入分析的场景,如疑难病例的讨论。

例子:通过与用户的多轮对话,逐步分析病情,提供更全面的建议。


  1. 视觉生成功能(生成图像)

除了理解图像,HealthGPT 还能根据需求生成新的医疗图像,像一个“图像制作大师”。它的生成功能包括以下几个方面:

图像超分辨率(Super-Resolution)

功能:将低分辨率的图像转化为高清晰度图像,帮助医生看清细节,发现小病灶或微小结构。

应用:特别适用于提高图像质量,帮助医生更准确地诊断。

例子:在 IXI 数据集的测试中,HealthGPT 超分辨率结果的 SSIM 达到 78.19,显著优于传统方法(Real-ESRGAN 的 67.30)。

模态转换(Modality Conversion)

功能:将一种类型的医疗图像(如 CT)转换为另一种类型(如 MRI),或者反过来,提供不同模态下的对比视图。

应用:当医生需要对比不同类型的图像时,HealthGPT 能够补齐模态缺口,提供额外的视角。

例子:在 CT 到 MRI 的任务中,HealthGPT 的效果(SSIM 79.38)显著优于 Pix2Pix(71.09)。

图像重建(Reconstruction)

功能:根据部分损坏或不完整的信息,重建完整的医疗图像。

应用:适用于恢复损坏的图像或根据描述生成参考图像。

例子:HealthGPT 在图像重建任务中的表现比 Unified-IO 2 等模型更稳定、更可控。

图像增强(如去噪)

功能:去除图像中的噪声,使图像更加清晰,便于诊断。

应用:在低质量的图像或老旧设备拍摄的图像中尤为有用,能够提升图像质量。


  1. 统一多模态能力(理解与生成结合)

HealthGPT 的独特之处在于,它不仅能够独立执行视觉理解和生成任务,还能够将两者结合。例如:

功能:你可以问:“这个 CT 图像有什么问题?能否生成对应的 MRI 图像看一看?” HealthGPT 会首先提供图像分析结果(理解任务),然后根据需要生成对应的 MRI 图像(生成任务)。

应用:这种“一站式”服务让医生能够在同一工具中完成多项任务,极大提升了工作效率。

例子:在测试中,HealthGPT 在问答任务上的表现得分为 66.4,而在图像生成任务上的质量(如 SSIM 78+)也表现优异。


  1. 具体应用场景

HealthGPT 可以直接应用于以下医疗场景:

辅助诊断:通过医疗图像分析和问答,帮助医生进行疾病诊断。

图像处理:图像增强、超分辨率和模态转换等功能帮助医生更好地观察图像,发现潜在问题。

医学教育:生成示例图像或回答学生问题,用于教学和案例分析。

研究支持:为医学研究提供多模态的图像数据支持,帮助科研人员进行更深入的分析。


这些功能使它在医疗领域中,既能担任“分析师”,又能担任“设计师”,为医生提供全方位的帮助。测试结果表明,它在视觉理解和生成任务中都比现有工具更为出色,具有广阔的应用前景,未来可能成为医院的得力助手。

技术方法

HealthGPT的技术亮点:

一个模型同时完成理解与生成任务(自回归)。

通过层次化处理图像和分开存储知识,确保任务的高效执行。

分阶段训练使其在医疗领域中具备快速适应新任务的能力。

这些方法使 HealthGPT 成为医疗领域的多功能工具,既能提供问题解答,又能生成高质量医疗图像。

image


总体技术思路

HealthGPT 的目标是让一个模型既能“看懂”医疗图像(理解),又能“画出”医疗图像(生成)。它的核心思路是:

基于已有模型改进:利用一个预训练的大型语言模型(LLM)作为基础,而不是从零开始。

统一处理方式:用一种叫“自回归”的方法,把理解和生成任务都变成“一步步预测下一个东西”的过程。

分开管理冲突:通过特殊设计,避免理解和生成任务互相干扰。

为了做到这些,它用到了几个关键技术:统一自回归生成、层次视觉感知(HVP)、异构低秩适配(H-LoRA)和三阶段学习策略(TLS),再加上一个专门的数据集 VL-Health。下面逐一展开。


具体技术方法

  1. 统一自回归生成(Unified Autoregressive Generation)

原理: HealthGPT 把所有任务(理解和生成)都变成一个“预测序列”的过程。

理解任务:输入图像和问题,模型一步步输出文字答案(比如“这张图有肺炎”)。

生成任务:输入指令,模型先输出图像的“代码”(比如一串数字),然后用一个解码器把代码变成图像。

用特殊标记区分:比如用 [START_IMG] 表示开始生成图像,[END_IMG] 表示结束。

怎么做到的:

图像先被转成一串“视觉代码”(用 VQGAN 技术生成),就像把图像压缩成数字。

这些代码和文字一起输入模型,模型按顺序预测下一个输出(文字或图像代码)。

作用: 一个模型就能同时处理两种任务,不用分开训练两个独立的系统,简化了设计。

例子: 你问“这个 CT 有问题吗?”,它输出文字回答;你说“生成对应的 MRI”,它输出图像代码,再转成图片。

  1. 层次视觉感知(Hierarchical Visual Perception, HVP)

原理: 理解和生成对图像的需求不同:理解需要抓住重点(比如“哪里有病”),生成需要保留所有细节(比如“每个像素都得清楚”)。HealthGPT 用一个工具(Vision Transformer,简称 ViT)把图像分成不同层次来处理。

怎么做到的:

ViT 把图像分解成多个“层级”:

浅层特征:从 ViT 的前几层提取,保留细节,适合生成任务。

深层特征:从 ViT 的后几层提取,提取重点信息,适合理解任务。

根据任务类型选择:

理解任务用深层特征(抽象信息)。

生成任务用浅层特征(完整细节)。

然后把选好的特征和文字问题拼在一起,交给模型处理。

作用: 避免了理解和生成任务对图像处理的需求打架,确保每种任务都能用最合适的“视角”。

例子:

回答问题时,它只看“重点版”图像(深层特征),不会被细节干扰。

生成清晰图像时,它用“完整版”图像(浅层特征),保证不丢信息。

  1. 异构低秩适配(Heterogeneous Low-Rank Adaptation, H-LoRA)

原理: 理解和生成任务的知识不同,HealthGPT 把它们分开存储和管理,避免混在一起互相影响。它基于一个叫 LoRA(低秩适配)的技术改进,创造了 H-LoRA。

怎么做到的:

分开存储:

给理解任务和生成任务各建一个“知识库”(子模块),就像两个独立的文件夹。

每个任务有自己的“调整参数”,不干扰对方的学习。

动态选择:

根据任务类型(理解还是生成),模型自动切换到对应的知识库。

专家优化:

在每个知识库里,还有几个“小专家”(基于 Mixture of Experts 思想),专门处理不同子任务(比如问答、超分辨率)。

这些专家的知识被合并成一个大矩阵,用一个“路由器”决定谁来干活,效率更高。

效率提升:

相比老方法(MoELoRA),H-LoRA 通过合并矩阵减少计算量,训练时间缩短了三分之一(比如用 4 个专家时,只需 MoELoRA 的 67% 时间)。

作用:

让理解和生成任务各干各的,不打架。

提高计算效率,模型学得更快、更省资源。

例子:

你问问题时,它调出“理解知识库”;你让它生成图像时,切换到“生成知识库”,干净利落。

  1. 三阶段学习策略(Three-Stage Learning Strategy, TLS)

原理: HealthGPT 不是一下学会所有技能,而是分三步走,逐步掌握理解和生成能力。

怎么做到的: 1.

第一阶段:多模态对齐

先让模型学会把图像和文字“对上号”(理解),比如看图回答问题。

再教它把图像“画出来”(生成),比如学会用代码重建图像。

这阶段冻结大模型,只调整图像处理部分和 H-LoRA。

第二阶段:整合知识

用少量混合数据(理解和生成都有),调整模型的“输入输出接口”(嵌入层和输出头)。

确保理解和生成能无缝对接,形成一个统一的模型。

H-LoRA 这时候保持不动,只优化接口。

第三阶段:任务优化

针对具体医疗任务(比如问答、超分辨率)再训练 H-LoRA。

让模型适应各种实际需求,变得更专业。

作用:

分步学习避免了一次性学太多“消化不良”。

逐步优化让模型更灵活,能快速适应新任务。

例子:

第一步学会看图说话和画图基础。

第二步打通两种技能。

第三步专门练回答医疗问题和生成清晰图像。

  1. VL-Health 数据集

原理: 为了让模型学会医疗任务,HealthGPT 整理了一个专门的数据集,提供“教材”。

怎么做到的:

内容:

理解任务:76 万多条问题和答案(比如“这个 X 光片有什么问题?”)。

生成任务:78 万多条图像任务(比如“把这个 CT 转成 MRI”)。

来源:

从现有医疗数据中收集,比如 VQA-RAD(放射学问答)、IXI(脑部 MRI)、MIMIC-CXR-VQA(X 光片)。

经过整理和标准化,确保数据质量。

格式:

统一成“指令-回答”形式,比如“描述这张图”对应文字回答,“生成清晰版”对应图像输出。

作用:

给模型提供了丰富的练习材料,让它能快速学会医疗任务。

例子:

用 VQA-RAD 数据练问答,用 IXI 数据练超分辨率。

image


技术方法的整体效果

这些方法结合起来,让 HealthGPT 实现了:

高效整合:一个模型同时处理理解和生成,节省资源。

任务分离:HVP 和 H-LoRA 避免冲突,确保两种任务都做好。

快速学习:三阶段策略和 VL-Health 让模型用少量数据就能适应医疗场景。

高性能:测试显示,它在问答(得分 66.4)和图像生成(SSIM 78+)上都领先。


简单总结

HealthGPT 的技术方法可以用几句话概括:

用一个“大脑”管两件事(自回归)。

分层看图(HVP),分开存知识(H-LoRA),避免混乱。

三步走训练(TLS),加上自己的教材(VL-Health),学得快又好。

这些方法让它既能回答医疗问题,又能生成高质量图像,成为医疗领域的多面手。


实验结果

这篇文章详细介绍了 HealthGPT 在医疗视觉理解和生成任务中的实验结果,通过与其他现有模型的对比,证明了其优越性。以下是根据文章内容的概述:

实验设置概述

测试对象:

HealthGPT 包含两个版本:

HealthGPT-M3(3.8 亿参数,轻量版)

HealthGPT-L14(14 亿参数,增强版)

对比模型包括:

医疗专用模型(如 LLaVA-Med、HuatuoGPT-Vision)。

通用视觉-语言模型(如 LLaVA-v1.5、Unified-IO 2)。

生成专用模型(如 Pix2Pix、Real-ESRGAN)。

测试任务:

理解任务:医疗图像问答(VQA)、报告生成等。

生成任务:超分辨率、模态转换、图像重建等。

数据集:

使用 VL-Health 数据集及其他标准数据集(如 VQA-RAD、SLAKE、IXI)。

评价指标:

理解任务:准确率(得分越高越好)。

生成任务:SSIM、PSNR、MSE、LPIPS 等。

理解任务的实验结果

这些测试评估 HealthGPT 在回答医疗图像问题的能力。

  1. 主要测试数据集和结果

测试内容: 对比了多个医疗问答数据集,包括 VQA-RAD、SLAKE、PathVQA、OmniMedVQA 等。

结果表格:

image

关键发现:

HealthGPT-L14 领先:平均得分 66.4,比最好的医疗模型 HuatuoGPT-Vision(50.7)高出 15 分以上。

HealthGPT-M3 表现稳定:即使参数较少,得分 61.3,超过大多数 7 亿参数模型。

跨数据集表现强劲:在不同问答任务中均表现优异。

  1. 人类评价

测试方式: 5 位医生对 1000 个开放性问题的回答进行了评分,评估 HealthGPT 和其他模型的表现。

结果:

HealthGPT-L14 的回答被选为“最佳”的比例最高,约 40%,远超其他模型。

意义:

显示出 HealthGPT 的回答不仅准确,而且符合医生需求。

生成任务的实验结果

这些测试评估了 HealthGPT 在生成医疗图像方面的能力。

  1. 超分辨率(Super-Resolution)

任务: 将低分辨率图像放大 4 倍,测试 IXI 数据集(脑部 MRI)。

结果:

image

关键发现:

HealthGPT-M3 表现最佳:在 SSIM 和 LPIPS 等指标上均领先其他模型,显示出更高的图像质量。

  1. 模态转换(Modality Conversion)

任务: 将 CT 转换为 MRI,或 MRI 转换为 CT,测试脑部和骨盆区域。

结果:

image

关键发现:

HealthGPT-M3 大幅领先:其 SSIM 和 MSE 优于其他模型,证明其在模态转换任务中的卓越表现。

  1. 图像重建(Reconstruction)

任务: 根据部分图像重建完整图像,测试脑部和骨盆的 CT/MRI。

结果:

关键发现:

HealthGPT-M3 强劲表现:在 CT 和 MRI 图像重建中均大幅领先其他模型。

四、技术方法的效果验证

HealthGPT 的技术方法(如 H-LoRA)也经过单独测试。

  1. H-LoRA 对比

结果:

image

image

发现:

H-LoRA 性能和效率提升:在理解和生成任务中均超过 LoRA 和 MoELoRA,并且训练时间较短。


五、总结与意义

理解任务:HealthGPT-L14 在问答任务中表现优秀,得分 66.4。

生成任务:HealthGPT-M3 在超分辨率、模态转换和图像重建中全面领先。

技术优势:H-LoRA 等方法使其在性能和效率上都表现突出。

这些结果表明,HealthGPT 在医疗图像理解和生成方面都具有领先地位,能够在数据有限的场景下提供稳定、准确的表现。

项目地址:https://llsuzy.github.io/HealthGPT.github.io/

论文:https://arxiv.org/abs/2502.09838

GitHub:https://github.com/DCDmllm/HealthGPT


来源:HealthGPT:支持持 7 种医学理解和 5 种医学生成任务的统一视觉医学专用模型