📰 正文

Meta AI 发布 SAM 3D 个用于从单张图像中恢复真实世界三维结构的系统性框架。 此次发布包含两项核心模型: 1.

SAM 3D Objects:从单张图片中重建物体的3D形状、纹理和布局

SAM 3D Body:从单张图片中恢复人体的完整三维姿态与体型

该模型能够从单张RGB图像中估计人体的完整三维姿态与表面网格(mesh),并在多种自然场景下展现出强大的鲁棒性与泛化能力。

SAM 3D Objects

SAM 3D Objects 专注于:

从真实世界的单张图片中恢复物体的三维形状、纹理和空间位置;

在复杂环境中(非实验室图像)依然保持高精度。

以往的3D模型主要能生成“干净的物体模型”,例如:

一只杯子在白底背景;

一辆车的CAD渲染图。

但在真实照片中,存在:

遮挡;

间接视角;

杂乱场景;

多物体交叠。

SAM 3D Objects 的关键创新就在于突破“合成数据—真实图像”的鸿沟。

数据引擎(Data Engine)与训练方法

Meta 构建了一个前所未有的 3D标注引擎(Data Annotation Engine), 这是 SAM 3D Objects 的核心技术。

关键机制: 1.

模型-人类循环(Model-in-the-Loop):

模型生成多个候选3D网格;

人类标注员根据质量打分;

困难样本交由专业3D艺术家人工修正。

数据闭环增强(Positive Feedback Loop):

模型生成 → 人类评价 → 模型改进;

每次迭代提升模型与数据质量。

数据规模:

近 100万张真实图像;

生成约 314万条网格样本(meshes);

这是迄今为止真实世界3D标注的最大规模。

训练流程(类似LLM训练范式):

Pre-training:先在合成3D资产上进行预训练;

Post-training (Alignment):用真实世界图像进行后对齐;

Fine-tuning:借助人工评估的高置信样本进行强化学习式微调。

这种“3D版的大语言模型训练范式”使模型具备从自然图像中学习三维知识的能力。

SAM 3D Body

SAM 3D Body 面向单图像人体三维重建(3D Human Mesh Recovery, HMR)。 目标是:

从一张照片中恢复完整人体(包括身体、手、脚);

兼容不同姿态、遮挡与服装;

支持交互式提示控制。

它的主要功能是:

🪄 “只用一张图片,就能重建出一个完整的三维人体模型(带身体、手、脚)。”

换句话说,如果你给它一张人物照片,它能算出:

人的姿势(手、脚、身体的角度)

身体的形状(胖瘦、身高、肌肉结构)

整个身体的三维网格(Mesh),也就是“3D版本的人体”

这就像你用普通手机拍一张人像,它能帮你自动生成那个人的 3D 模型, 可以在游戏、动画、虚拟试衣间、运动分析等地方用。

3DB 属于 SAM 3D 系列模型的一部分,与 SAM 3D Objects(重建物体的3D形状) 相互补充,前者聚焦人体网格恢复,后者用于通用物体三维重建。

SAM 3D Body 的核心目标是:

实现 从单张图像中恢复完整3D人体;

在无需多视角或视频输入的情况下,保持高精度与稳定性;

通过**提示机制(prompting)**提高用户可控性;

在复杂环境(遮挡、非标准姿势、野外图像)中具备稳健的重建性能。

SAM 3D 系列是 Meta 继 “Segment Anything Model (SAM)” 之后,在“可提示式(promptable)三维建模”领域的重要延伸。

它能做哪些事情?

image

模型架构

模型采用标准的 Encoder–Decoder 架构:

编码器(Encoder):提取2D图像的深层视觉特征;

解码器(Decoder):将编码特征映射为三维人体参数;

支持 辅助提示输入(auxiliary prompts),包括2D关键点、人体掩码(mask)等;

输出为 全身、手部、足部 的完整三维网格结构。

image

模型支持多种主干网络(backbone),包括:

DINOv3

ViT-H

可以接收提示(prompt),比如:

给它一个掩码,告诉它“人在哪里”;

给它一些关键点(如肩膀、膝盖位置),帮助它更快、更准地推断3D姿态。

新的人体表示方式:Momentum Human Rig(MHR)

这是项目最核心的创新。

传统的人体3D模型通常直接拟合“表面点”, 但 MHR(Momentum Human Rig)把人体拆分成两部分:

骨架结构(Skeleton):关节、骨骼、姿势;

表面形状(Surface Shape):肌肉、体型、皮肤的网格细节。

这样模型可以:

更精确地控制姿势;

更清晰地理解身体结构;

更好地泛化到不同人种、体型。

🧩 类比一下:

如果传统方法是“直接做雕像”, 那 MHR 的做法是“先搭好骨架,再贴皮肤”。

模型训练过程

Meta 用了非常庞大和复杂的数据管线来训练它,包括:

多阶段数据标注流程(自动+人工结合)

多视角几何优化(用不同角度的相机验证姿势)

可微分优化(模型能自己修正预测误差)

数据引擎(Data Engine):持续收集“稀有姿势”和“不常见角度”的样本

这让模型能适应现实世界中各种姿势和角度,比如:

坐着的人;

被遮挡的姿势;

拍摄角度很奇怪的自拍照。

表现如何?

Meta 提供了和其他模型的详细对比(用标准数据集评估):

image

🔹 结果显示: SAM 3D Body 比以往的 HMR、CameraHMR、NLF、HMR2.0 等模型都更准、更稳定。 尤其在遮挡严重、姿势复杂的场景中优势明显。

image

怎么用?

Meta 已经把它开源在 GitHub 上,并且提供了:

🔗 模型权重下载(在 Hugging Face 上)

⚙️ 推理脚本 demo.py

📓 Notebook 示例 notebook/demo_human.ipynb

SAM 3D Blog:https://ai.meta.com/blog/sam-3d

SAM 3D Objects 论文:SAM 3D: 3DFY Anything in Images

SAM 3D Body GitHub:facebookresearch/sam-3d-body

项目地址:https://ai.meta.com/blog/sam-3d/


来源:Meta AI 发布 SAM 3D 可以从任意图像中提取物体和人物的3D模型