GPT-4o 对视觉理解有多深？在标准计算机视觉任务上评估多模态基础模型

📰 正文

像GPT-4o、Gemini、Claude这些模型，不光能聊天，还能“看图说话”。但是研究人员发现：虽然它们能看图写文字，但并不清楚它们是否真的“理解”图像，比如：

它能区分图像里不同的物体吗？

它能知道哪个东西远哪个东西近吗？

它能把一个图像“拆解”成不同的部分吗？

所以，瑞士联邦理工学院的研究人员决定给这些AI模型来一次“标准视觉任务考试”。

怎么考？——标准视觉任务

研究对象包括 GPT-4o、Gemini 1.5/2.0、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2 等主流多模态大模型。

他们挑选了6个标准的视觉任务，每一个都像是给AI的不同能力小测验：

难点：这些AI不会直接“画图”

这类多模态模型（比如GPT-4o）是通过文字回答问题的，它不会像专业模型那样直接输出图像里的像素位置、坐标、线条。

所以研究人员发明了一种方法，叫做：

🔗 Prompt Chaining（提示链）

这就像“拆解问题”，把复杂的视觉任务一步步转成模型能回答的“小问题”，比如：

问：“图中有没有狗？”

再问：“狗在图的哪个格子里？”

一步步缩小范围，直到能圈出狗。

这样，通过一连串的问题+提示，把模型引导完成整张图的任务。

结果怎么样？GPT-4o表现如何？

评估模型（包含闭源和开源）：

GPT-4o

Gemini 2.0 Flash、Gemini 1.5 Pro

Claude 3.5 Sonnet

o4-mini、o3、o1（Reasoning 系列）

Qwen2-VL 72B

LLaMA 3.2 Vision

📍视觉专家模型（Vision Specialists）：

ImageNet 分类：ModelSoups、OpenCLIP

检测：Co-DETR、DETR

分割：OneFormer

深度/法线：Omnidata、4M-21

🥇 各任务具体总结

✅ 1. GPT-4o 是最强通用模型

在6个任务中有4个表现最好，尤其在语义相关任务中。

✅ 2. 多模态基础模型在语义任务远好于几何任务

准确识别物体“是什么”（分类、分割）效果好；

空间定位（深度、法线）表现明显落后。

✅ 3. Prompt Chaining 显著优于直接提示

优化 Prompt 会显著提升结果；

高性能模型对 Prompt 敏感度更低。

✅ 4. 新的“推理型模型”在几何任务上有突破

o4-mini、o3、o1 在法线和深度任务上明显领先。

尤其 o4-mini 在法线预测的 ρ 值显著高于 GPT-4o。

✅ 5. 图像生成功能的GPT-4o仍不成熟

虽然能生成图像输出，但存在“语义还原”倾向，常出现空间错位与幻觉现象。

模型趋势与启示：

语义理解强，几何推理弱：GPT-4o 等模型在“识别物体是什么”方面非常强，但“在哪里”和“怎么放”的空间理解还有待加强。

推理型模型的崛起：o4-mini、o3、o1 在几何任务中表现优于 GPT-4o，说明推理能力提升了视觉空间理解。

Prompt设计至关重要：不同任务、不同模型要用不同策略，优化 prompt 能显著提升结果。

图像生成版 GPT-4o 存在 hallucination & misalignment，尚不能作为稳定替代方案。

GitHub: https://github.com/EPFL-VILAB/fm-vision-evals

项目页面：https://fm-vision-evals.epfl.ch/

论文：https://arxiv.org/pdf/2507.01955

来源：GPT-4o 对视觉理解有多深？在标准计算机视觉任务上评估多模态基础模型

📰 正文#

📰 正文