📰 正文

SpatialLM 是一个结合了 大语言模型 (LLM) 与 3D 点云处理能力 的 AI 系统,旨在实现对真实世界三维环境的语义理解与结构重建。

它的核心目标是:

让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、“结构化表达”,乃至“与人类互动”。

📦 本质上,它是:

一个 将 3D 点云数据转化为结构化理解与自然语言描述 的系统

结合 大语言模型(LLM)+ 点云编码器 + 多模态感知能力 的框架

其输入可以是:

单目 RGB 视频(普通摄像头即可,无需深度设备)

RGB-D 图像(带深度信息的图像,如 iPhone 深感摄像头)

激光雷达(LiDAR)

image

SpatialLM 能将这些原始数据 编码成结构化 3D 场景语义信息:

输出 墙壁、门、窗、楼梯等建筑构件

输出 物体的 3D 边界框(Oriented Bounding Boxes)+ 语义标签

可生成:

2D 平面图(Floorplan)

IFC 格式建筑模型(建筑行业通用)

自然语言文字描述

image

📌 优势:从原始 3D 几何 → 到高层语义理解 → 到实际可用的建筑/游戏/导航模型

多模态大语言模型能力

基于强大的 预训练语言模型(如 GPT 或定制 LLM),具有理解上下文和语义关系的能力

空间语言的生成不再是“硬编码”,而是通过学习获得空间概念

支持空间对话与结构化理解输出

📌 示例能力:

给 AI 一段室内视频,它不仅可以告诉你“哪里有一面墙”,还能说: “这面墙后面是一个开放式厨房,旁边有通往阳台的门。”


核心流程(Pipeline)

🎥 输入:普通手机拍摄的视频 / 摄像头图像

🧱 MASt3R-SLAM 模块:构建稠密点云(即三维世界的“点状表示”)

🧠 Point Cloud Encoder:将点云压缩为语义特征向量

✍️ SpatialLM(LLM):生成“场景代码(Scene Code)”,表示空间结构与语义关系

📐 输出格式:可转换为 3D 结构图、2D 平面图、文本描述或行业标准 IFC 模型

SpatialLM 的输出结果不仅支持三维结构识别,还可以转换成常见的行业标准格式,使其可广泛应用于建筑设计、机器人导航、虚拟现实等多个平台和系统中。

应用场景

🏗️ 建筑与BIM行业

通过摄像头拍摄,自动生成建筑初步结构图

快速转为 IFC 格式,用于 Revit / Rhino / CAD 软件建模

🤖 机器人导航

机器人感知真实环境,使用 SpatialLM 输出空间语义

支持路径规划、障碍识别、空间理解

🧭 智能导航与SLAM系统

用于室内导航地图自动生成

更丰富的语义地图,不只是“几何信息”,还有“空间含义”

🧩 游戏与元宇宙内容生成

用一段现实视频自动生成可用的 3D 游戏场景

节省美术建模成本,提升元宇宙内容生产效率

未来展望

语义导航与问答:

“请告诉我厨房在哪?”、“这堵墙能拆吗?”、“窗户旁边有什么?”

语音空间助手:

智能语音助手结合 LLM 与空间语义,对接 Apple Vision Pro、Meta Quest 等

多智能体协同建模:

多台机器人使用 SpatialLM 对同一场景进行建模 + 多视角融合

image

项目地址:https://manycore-research.github.io/SpatialLM/

GitHub:https://github.com/manycore-research/SpatialLM

模型下载:https://huggingface.co/manycore-research/SpatialLM-Llama-1B


来源:SpatialLM:让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、乃至“与人类互动”