Meta AI 发布 SAM 3D 可以从任意图像中提取物体和人物的3D模型

📰 正文

Meta AI 发布 SAM 3D 个用于从单张图像中恢复真实世界三维结构的系统性框架。此次发布包含两项核心模型： 1.

SAM 3D Objects：从单张图片中重建物体的3D形状、纹理和布局

SAM 3D Body：从单张图片中恢复人体的完整三维姿态与体型

该模型能够从单张RGB图像中估计人体的完整三维姿态与表面网格（mesh），并在多种自然场景下展现出强大的鲁棒性与泛化能力。

SAM 3D Objects

SAM 3D Objects 专注于：

从真实世界的单张图片中恢复物体的三维形状、纹理和空间位置；

在复杂环境中（非实验室图像）依然保持高精度。

以往的3D模型主要能生成“干净的物体模型”，例如：

一只杯子在白底背景；

一辆车的CAD渲染图。

但在真实照片中，存在：

遮挡；

间接视角；

杂乱场景；

多物体交叠。

SAM 3D Objects 的关键创新就在于突破“合成数据—真实图像”的鸿沟。

数据引擎（Data Engine）与训练方法

Meta 构建了一个前所未有的 3D标注引擎（Data Annotation Engine），这是 SAM 3D Objects 的核心技术。

关键机制： 1.

模型-人类循环（Model-in-the-Loop）：

模型生成多个候选3D网格；

人类标注员根据质量打分；

困难样本交由专业3D艺术家人工修正。

数据闭环增强（Positive Feedback Loop）：

模型生成 → 人类评价 → 模型改进；

每次迭代提升模型与数据质量。

数据规模：

近 100万张真实图像；

生成约 314万条网格样本（meshes）；

这是迄今为止真实世界3D标注的最大规模。

训练流程（类似LLM训练范式）：

Pre-training：先在合成3D资产上进行预训练；

Post-training (Alignment)：用真实世界图像进行后对齐；

Fine-tuning：借助人工评估的高置信样本进行强化学习式微调。

这种“3D版的大语言模型训练范式”使模型具备从自然图像中学习三维知识的能力。

SAM 3D Body

SAM 3D Body 面向单图像人体三维重建（3D Human Mesh Recovery, HMR）。目标是：

从一张照片中恢复完整人体（包括身体、手、脚）；

兼容不同姿态、遮挡与服装；

支持交互式提示控制。

它的主要功能是：

🪄 “只用一张图片，就能重建出一个完整的三维人体模型（带身体、手、脚）。”

换句话说，如果你给它一张人物照片，它能算出：

人的姿势（手、脚、身体的角度）

身体的形状（胖瘦、身高、肌肉结构）

整个身体的三维网格（Mesh），也就是“3D版本的人体”

这就像你用普通手机拍一张人像，它能帮你自动生成那个人的 3D 模型，可以在游戏、动画、虚拟试衣间、运动分析等地方用。

3DB 属于 SAM 3D 系列模型的一部分，与 SAM 3D Objects(重建物体的3D形状）相互补充，前者聚焦人体网格恢复，后者用于通用物体三维重建。

SAM 3D Body 的核心目标是：

实现从单张图像中恢复完整3D人体；

在无需多视角或视频输入的情况下，保持高精度与稳定性；

通过**提示机制（prompting）**提高用户可控性；

在复杂环境（遮挡、非标准姿势、野外图像）中具备稳健的重建性能。

SAM 3D 系列是 Meta 继 “Segment Anything Model (SAM)” 之后，在“可提示式（promptable）三维建模”领域的重要延伸。

它能做哪些事情？

模型架构

模型采用标准的 Encoder–Decoder 架构：

编码器（Encoder）：提取2D图像的深层视觉特征；

解码器（Decoder）：将编码特征映射为三维人体参数；

支持辅助提示输入（auxiliary prompts），包括2D关键点、人体掩码（mask）等；

输出为全身、手部、足部的完整三维网格结构。

模型支持多种主干网络（backbone），包括：

DINOv3

ViT-H

可以接收提示（prompt），比如：

给它一个掩码，告诉它“人在哪里”；

给它一些关键点（如肩膀、膝盖位置），帮助它更快、更准地推断3D姿态。

新的人体表示方式：Momentum Human Rig（MHR）

这是项目最核心的创新。

传统的人体3D模型通常直接拟合“表面点”，但 MHR（Momentum Human Rig）把人体拆分成两部分：

骨架结构（Skeleton）：关节、骨骼、姿势；

表面形状（Surface Shape）：肌肉、体型、皮肤的网格细节。

这样模型可以：

更精确地控制姿势；

更清晰地理解身体结构；

更好地泛化到不同人种、体型。

🧩 类比一下：

如果传统方法是“直接做雕像”，那 MHR 的做法是“先搭好骨架，再贴皮肤”。

模型训练过程

Meta 用了非常庞大和复杂的数据管线来训练它，包括：

多阶段数据标注流程（自动+人工结合）

多视角几何优化（用不同角度的相机验证姿势）

可微分优化（模型能自己修正预测误差）

数据引擎（Data Engine）：持续收集“稀有姿势”和“不常见角度”的样本

这让模型能适应现实世界中各种姿势和角度，比如：

坐着的人；

被遮挡的姿势；

拍摄角度很奇怪的自拍照。

表现如何？

Meta 提供了和其他模型的详细对比（用标准数据集评估）：

🔹 结果显示： SAM 3D Body 比以往的 HMR、CameraHMR、NLF、HMR2.0 等模型都更准、更稳定。尤其在遮挡严重、姿势复杂的场景中优势明显。

怎么用？

Meta 已经把它开源在 GitHub 上，并且提供了：

🔗 模型权重下载（在 Hugging Face 上）

⚙️ 推理脚本 demo.py

📓 Notebook 示例 notebook/demo_human.ipynb

SAM 3D Blog：https://ai.meta.com/blog/sam-3d

SAM 3D Objects 论文：SAM 3D: 3DFY Anything in Images

SAM 3D Body GitHub：facebookresearch/sam-3d-body

项目地址：https://ai.meta.com/blog/sam-3d/

来源：Meta AI 发布 SAM 3D 可以从任意图像中提取物体和人物的3D模型

📰 正文#

📰 正文