📰 正文

像GPT-4o、Gemini、Claude这些模型,不光能聊天,还能“看图说话”。但是研究人员发现: 虽然它们能看图写文字,但并不清楚它们是否真的“理解”图像,比如:

它能区分图像里不同的物体吗?

它能知道哪个东西远哪个东西近吗?

它能把一个图像“拆解”成不同的部分吗?

所以,瑞士联邦理工学院的研究人员决定给这些AI模型来一次“标准视觉任务考试”。

image

怎么考?——标准视觉任务

研究对象包括 GPT-4o、Gemini 1.5/2.0、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2 等主流多模态大模型。

他们挑选了6个标准的视觉任务,每一个都像是给AI的不同能力小测验:

image

难点:这些AI不会直接“画图”

这类多模态模型(比如GPT-4o)是通过文字回答问题的,它不会像专业模型那样直接输出图像里的像素位置、坐标、线条。

所以研究人员发明了一种方法,叫做:

🔗 Prompt Chaining(提示链)

这就像“拆解问题”,把复杂的视觉任务一步步转成模型能回答的“小问题”,比如:

问:“图中有没有狗?”

再问:“狗在图的哪个格子里?”

一步步缩小范围,直到能圈出狗。

这样,通过一连串的问题+提示,把模型引导完成整张图的任务。

结果怎么样?GPT-4o表现如何?

评估模型(包含闭源和开源):

GPT-4o

Gemini 2.0 Flash、Gemini 1.5 Pro

Claude 3.5 Sonnet

o4-mini、o3、o1(Reasoning 系列)

Qwen2-VL 72B

LLaMA 3.2 Vision

📍视觉专家模型(Vision Specialists):

ImageNet 分类:ModelSoups、OpenCLIP

检测:Co-DETR、DETR

分割:OneFormer

深度/法线:Omnidata、4M-21

image

🥇 各任务具体总结

✅ 1. GPT-4o 是最强通用模型

在6个任务中有4个表现最好,尤其在语义相关任务中。

✅ 2. 多模态基础模型在语义任务远好于几何任务

准确识别物体“是什么”(分类、分割)效果好;

空间定位(深度、法线)表现明显落后。

✅ 3. Prompt Chaining 显著优于直接提示

优化 Prompt 会显著提升结果;

高性能模型对 Prompt 敏感度更低。

✅ 4. 新的“推理型模型”在几何任务上有突破

o4-mini、o3、o1 在法线和深度任务上明显领先。

尤其 o4-mini 在法线预测的 ρ 值显著高于 GPT-4o。

✅ 5. 图像生成功能的GPT-4o仍不成熟

虽然能生成图像输出,但存在“语义还原”倾向,常出现空间错位与幻觉现象。

image

模型趋势与启示:

语义理解强,几何推理弱:GPT-4o 等模型在“识别物体是什么”方面非常强,但“在哪里”和“怎么放”的空间理解还有待加强。

推理型模型的崛起:o4-mini、o3、o1 在几何任务中表现优于 GPT-4o,说明推理能力提升了视觉空间理解。

Prompt设计至关重要:不同任务、不同模型要用不同策略,优化 prompt 能显著提升结果。

图像生成版 GPT-4o 存在 hallucination & misalignment,尚不能作为稳定替代方案。

image

GitHub: https://github.com/EPFL-VILAB/fm-vision-evals

项目页面:https://fm-vision-evals.epfl.ch/

论文:https://arxiv.org/pdf/2507.01955


来源:GPT-4o 对视觉理解有多深?在标准计算机视觉任务上评估多模态基础模型