Cambrian-S：空间超感知模型 不仅能“看懂”视频，还能精准地推理预测空间结构、物体布局与运动关系

📰 正文

Cambrian-S 是由 Meta、NYU、Google Brain 与斯坦福学者（包括 Yann LeCun、Li Fei-Fei、Saining Xie 等）联合推出的最新多模态模型，目标是推动视频理解进入“空间超感知（Spatial Supersensing）”时代。

这套模型不仅能“看懂”视频，还能精准地推理空间结构、物体布局与运动关系，在“空间推理（spatial reasoning）”维度上显著超越以往的视频 MLLM。

核心创新点

传统的视频模型（如 Video-LLaMA、InternVideo）更多是在“识别发生了什么”；而 Cambrian-S 想要回答的是：

这个物体在哪里？

它离另一物体多远？

它下一步会去哪里？

这就是论文提出的概念——Spatial Supersensing（空间超感知）。它不仅关注时间序列的变化，更强调空间几何与动态布局的推理能力。

举个例子：在人类认知中，我们不仅看到“杯子在桌上”，我们还能推断“若桌子倾斜，杯子会滑落”。 Cambrian-S 正是在朝这种“空间推理”方向前进。

🧩 关键创新：Predictive Sensing

不同于传统帧级特征融合，Cambrian-S 引入了“未来帧预测机制”：模型不仅处理当前帧，还根据历史帧预测下一个可能的空间状态。这种机制让模型在理解“动作趋势”和“空间因果”上表现更接近人类。

数据与基准：VSI 系列体系

Cambrian-S 的性能离不开两个核心数据与评测体系：

📘 VSI-590K：空间理解调优数据集

含 59 万条视频-文本配对；

专注于“空间位置”“相对距离”“遮挡关系”“轨迹预测”等问题；

由 Cambrian 团队自建并开放至 Hugging Face (nyu-visionx/VSI-590K)。

📊 VSI-SUPER：空间超感知评测基准

面向空间推理任务的全新 benchmark；

包含位置问答、动作预测、时空一致性、遮挡恢复等子任务；

用于验证模型是否具备真正的“空间推理”能力。

模型家族与性能表现

Cambrian-S 提供四个不同规模版本，参数从 0.5B 到 7B。

性能概览：

在通用视频理解基准（Perception Test、EgoSchema）上与 SOTA 模型持平；

在空间推理类任务（VSI-SUPER）上显著领先；

对遮挡、遮蔽、多物体场景的解析能力提升尤为突出。

科学与应用意义

🔬 科学层面

提出“空间超感知”范式，为未来 AI 的物理与空间理解提供新框架；

结合语言模型的语义推理与视觉编码器的几何感知，实现跨模态空间推断；

为机器人、视频分析、AR / VR 提供统一认知基础。

💡 工程与产业层面

可直接应用于自动驾驶、无人机导航、智能监控、工业检测等需要空间感知的任务；

“预测式感知”机制可帮助 AI 在视频生成与未来场景规划中实现更稳定的空间一致性；

开源的 VSI 体系将成为行业级空间理解基准。

项目地址：https://cambrian-mllm.github.io/cambrian-s/

GitHub：https://github.com/cambrian-mllm/cambrian-s

论文：https://arxiv.org/abs/2511.04670