📰 正文
像GPT-4o、Gemini、Claude这些模型,不光能聊天,还能“看图说话”。但是研究人员发现: 虽然它们能看图写文字,但并不清楚它们是否真的“理解”图像,比如:
它能区分图像里不同的物体吗?
它能知道哪个东西远哪个东西近吗?
它能把一个图像“拆解”成不同的部分吗?
所以,瑞士联邦理工学院的研究人员决定给这些AI模型来一次“标准视觉任务考试”。
怎么考?——标准视觉任务
研究对象包括 GPT-4o、Gemini 1.5/2.0、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2 等主流多模态大模型。
他们挑选了6个标准的视觉任务,每一个都像是给AI的不同能力小测验:
难点:这些AI不会直接“画图”
这类多模态模型(比如GPT-4o)是通过文字回答问题的,它不会像专业模型那样直接输出图像里的像素位置、坐标、线条。
所以研究人员发明了一种方法,叫做:
🔗 Prompt Chaining(提示链)
这就像“拆解问题”,把复杂的视觉任务一步步转成模型能回答的“小问题”,比如:
问:“图中有没有狗?”
再问:“狗在图的哪个格子里?”
一步步缩小范围,直到能圈出狗。
这样,通过一连串的问题+提示,把模型引导完成整张图的任务。
结果怎么样?GPT-4o表现如何?
评估模型(包含闭源和开源):
GPT-4o
Gemini 2.0 Flash、Gemini 1.5 Pro
Claude 3.5 Sonnet
o4-mini、o3、o1(Reasoning 系列)
Qwen2-VL 72B
LLaMA 3.2 Vision
📍视觉专家模型(Vision Specialists):
ImageNet 分类:ModelSoups、OpenCLIP
检测:Co-DETR、DETR
分割:OneFormer
深度/法线:Omnidata、4M-21
🥇 各任务具体总结
✅ 1. GPT-4o 是最强通用模型
在6个任务中有4个表现最好,尤其在语义相关任务中。
✅ 2. 多模态基础模型在语义任务远好于几何任务
准确识别物体“是什么”(分类、分割)效果好;
空间定位(深度、法线)表现明显落后。
✅ 3. Prompt Chaining 显著优于直接提示
优化 Prompt 会显著提升结果;
高性能模型对 Prompt 敏感度更低。
✅ 4. 新的“推理型模型”在几何任务上有突破
o4-mini、o3、o1 在法线和深度任务上明显领先。
尤其 o4-mini 在法线预测的 ρ 值显著高于 GPT-4o。
✅ 5. 图像生成功能的GPT-4o仍不成熟
虽然能生成图像输出,但存在“语义还原”倾向,常出现空间错位与幻觉现象。
模型趋势与启示:
语义理解强,几何推理弱:GPT-4o 等模型在“识别物体是什么”方面非常强,但“在哪里”和“怎么放”的空间理解还有待加强。
推理型模型的崛起:o4-mini、o3、o1 在几何任务中表现优于 GPT-4o,说明推理能力提升了视觉空间理解。
Prompt设计至关重要:不同任务、不同模型要用不同策略,优化 prompt 能显著提升结果。
图像生成版 GPT-4o 存在 hallucination & misalignment,尚不能作为稳定替代方案。
GitHub: https://github.com/EPFL-VILAB/fm-vision-evals
项目页面:https://fm-vision-evals.epfl.ch/
论文:https://arxiv.org/pdf/2507.01955