英伟达发布世界首个开源通用人形机器人基础模型：GR00T N1 通过视觉和语言指令解析物理世界

📰 正文

NVIDIA推出的Isaac GR00T N1，这是一个开源的通用人形机器人基础模型，旨在加速人形机器人在现实世界中的开发和应用。它结合了预训练模型、合成数据生成蓝图和仿真框架，帮助开发者构建能够适应多种任务和环境的机器人。

GR00T N1 是一个端到端的神经网络，从光子到动作：

视觉-语言模型（System 2）：通过视觉和语言指令解析物理世界，使机器人能够理解环境、任务指令并规划正确的动作。

扩散变换器（System 1）：以 120Hz 速率渲染流畅、精准的运动轨迹，并执行 System 2 规划的潜在动作。

GR00T N1 已经部署在 GR1 机器人、1X Neo 机器人及众多仿真基准测试环境中。在家庭及工业环境下的多样化操作任务中，N1 提升了高达 30% 的性能。

NVIDIA Isaac GR00T N1 的核心特性

开源模型：GR00T N1 是全球首个通用人形机器人基础模型、完全可定制的人形机器人基础模型，允许开发者根据特定任务和机器人形态进行调整。

双系统架构：受人类认知启发，包含“快思”和“慢思”系统：

慢思系统：负责感知环境、推理指令并规划行动。

快思系统：将计划转化为精准、连续的机器人动作。

跨形态通用性：一个模型适用于不同的人形机器人（如Fourier GR-1 和 1X Neo），展示了对物体操作、双手协作和复杂多步骤任务的强大泛化能力。

跨平台（Cross-Embodiment）：支持不同类型人形机器人，如 Fourier GR-1、1X Neo。

多模态输入：支持语言和图像等多种输入形式，使机器人能够理解指令并执行复杂的操作任务，如执行复杂操控任务（如抓取、双臂协作等）。

可自适应：支持特定机器人、任务、环境的微调训练。

GR00T N1 的模型架构

GR00T N1 采用双系统架构，模拟人类认知： 1.

视觉-语言模型（System 2）：

采用 NVIDIA-Eagle + SmolLM-1.7B。

解析视觉+语言，推理环境信息 & 任务规划。

扩散变换器（Diffusion Transformer, System 1）：

负责生成连续动作控制机器人。

将 System 2 的任务规划转化为具体运动轨迹。

两者紧密耦合，支持联合优化，以提升机器人对环境和任务的适应能力。

训练数据与合成数据生成

NVIDIA 采用金字塔式数据结构训练 GR00T N1，融合互联网、合成数据、真实机器人数据： 1.

基础层：大规模互联网视频 & 人类视频数据，提供广泛的视觉 & 语言信息。

中间层：NVIDIA Omniverse 生成的合成数据，填补缺失的机器人运动控制信号。

顶层：真实机器人数据，通过远程操控收集，以提升实际应用的准确性。

合成数据：750K 条合成轨迹（11 小时生成），等效于 6500 小时（9 个月）人类演示数据。

合成数据优势：利用 NVIDIA Omniverse 和 Cosmos 平台，从少量真实数据生成大量多样化的合成数据集。例如，他们从少量人类演示生成78万个合成轨迹，相当于6500小时的演示数据，仅耗时11小时。

结合真实数据+合成数据，相比仅用真实数据训练性能提升 40%。

仿真与开发工具

Isaac Sim 和 Isaac Lab：

Isaac Sim：基于物理精确的虚拟环境，用于模拟和验证机器人策略。

Isaac Lab：开源机器人学习框架，支持模仿学习和强化学习，帮助开发者训练机器人动作策略。

蓝图支持：Isaac GR00T Blueprint 提供合成数据生成的工作流程，解决真实数据稀缺问题。

开放数据集：部分训练数据已通过 Hugging Face 上的 NVIDIA 物理 AI 数据集开源，供开发者社区使用。

关键性能对比

(1) 仿真测试

(2) 真实机器人任务测试

(3) 结果分析

任务执行更流畅，抓取精度提升，特别是小样本数据微调后仍保持较高表现。

更高效的任务学习能力，相比 Diffusion Policy 方法，对语言指令响应更精准。

如何使用 GR00T N1

(1) 训练与推理流程 1.

数据准备：将机器人演示数据（视频+状态+动作）转换为 GR00T 数据集格式。

数据验证：使用验证脚本检查数据格式是否正确。

微调训练：使用 PyTorch 脚本对 GR00T N1 预训练模型进行定制化训练。

推理部署：

连接机器人控制器，执行推理任务。

或在仿真环境（Isaac Sim）测试推理效果。

性能评估：运行评估脚本，测量任务成功率。

(2) 设备支持

训练：

最低配置：NVIDIA RTX A6000 / RTX 4090。

推荐配置：NVIDIA DGX Spark / DGX H100。

推理：

NVIDIA RTX A6000

NVIDIA Jetson AGX Orin（适用于边缘计算）。

资源下载

GR00T N1 2B 预训练模型

NVIDIA 物理 AI 数据集（Hugging Face）

GR00T Blueprint（仿真 & 运动生成）

GROOT N1 白皮书

官方介绍：https://developer.nvidia.com/blog/accelerate-generalist-humanoid-robot-development-with-nvidia-isaac-gr00t-n1/

GitHub：https://github.com/NVIDIA/Isaac-GR00T/

来源：英伟达发布世界首个开源通用人形机器人基础模型：GR00T N1 通过视觉和语言指令解析物理世界

📰 正文#

📰 正文