📰 正文
SpatialLM 是一个结合了 大语言模型 (LLM) 与 3D 点云处理能力 的 AI 系统,旨在实现对真实世界三维环境的语义理解与结构重建。
它的核心目标是:
让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、“结构化表达”,乃至“与人类互动”。
📦 本质上,它是:
一个 将 3D 点云数据转化为结构化理解与自然语言描述 的系统
结合 大语言模型(LLM)+ 点云编码器 + 多模态感知能力 的框架
其输入可以是:
单目 RGB 视频(普通摄像头即可,无需深度设备)
RGB-D 图像(带深度信息的图像,如 iPhone 深感摄像头)
激光雷达(LiDAR)
SpatialLM 能将这些原始数据 编码成结构化 3D 场景语义信息:
输出 墙壁、门、窗、楼梯等建筑构件
输出 物体的 3D 边界框(Oriented Bounding Boxes)+ 语义标签
可生成:
2D 平面图(Floorplan)
IFC 格式建筑模型(建筑行业通用)
自然语言文字描述
📌 优势:从原始 3D 几何 → 到高层语义理解 → 到实际可用的建筑/游戏/导航模型
多模态大语言模型能力
基于强大的 预训练语言模型(如 GPT 或定制 LLM),具有理解上下文和语义关系的能力
空间语言的生成不再是“硬编码”,而是通过学习获得空间概念
支持空间对话与结构化理解输出
📌 示例能力:
给 AI 一段室内视频,它不仅可以告诉你“哪里有一面墙”,还能说: “这面墙后面是一个开放式厨房,旁边有通往阳台的门。”
核心流程(Pipeline)
🎥 输入:普通手机拍摄的视频 / 摄像头图像
🧱 MASt3R-SLAM 模块:构建稠密点云(即三维世界的“点状表示”)
🧠 Point Cloud Encoder:将点云压缩为语义特征向量
✍️ SpatialLM(LLM):生成“场景代码(Scene Code)”,表示空间结构与语义关系
📐 输出格式:可转换为 3D 结构图、2D 平面图、文本描述或行业标准 IFC 模型
SpatialLM 的输出结果不仅支持三维结构识别,还可以转换成常见的行业标准格式,使其可广泛应用于建筑设计、机器人导航、虚拟现实等多个平台和系统中。
应用场景
🏗️ 建筑与BIM行业
通过摄像头拍摄,自动生成建筑初步结构图
快速转为 IFC 格式,用于 Revit / Rhino / CAD 软件建模
🤖 机器人导航
机器人感知真实环境,使用 SpatialLM 输出空间语义
支持路径规划、障碍识别、空间理解
🧭 智能导航与SLAM系统
用于室内导航地图自动生成
更丰富的语义地图,不只是“几何信息”,还有“空间含义”
🧩 游戏与元宇宙内容生成
用一段现实视频自动生成可用的 3D 游戏场景
节省美术建模成本,提升元宇宙内容生产效率
未来展望
语义导航与问答:
“请告诉我厨房在哪?”、“这堵墙能拆吗?”、“窗户旁边有什么?”
语音空间助手:
智能语音助手结合 LLM 与空间语义,对接 Apple Vision Pro、Meta Quest 等
多智能体协同建模:
多台机器人使用 SpatialLM 对同一场景进行建模 + 多视角融合
项目地址:https://manycore-research.github.io/SpatialLM/
GitHub:https://github.com/manycore-research/SpatialLM
模型下载:https://huggingface.co/manycore-research/SpatialLM-Llama-1B