SpatialLM：群核科技开源的 3D 空间理解多模态大语言模型-新闻中心-星创云-用网站演绎您的企业精髓！网站制作建设|网络公司|做网站|网站优化|网站设计公司

SpatialLM：群核科技开源的 3D 空间理解多模态大语言模型

发布时间：2025-12-24 11:02:29 作者：cxyx 来源：本站浏览量（7）点赞（11）

摘要：SpatialLM 是群核科技于 2025 年 3 月在英伟达 GTC 大会开源的空间理解多模态模型，核心是用普通手机视频低成本生成物理精确的结构化 3D 场景，解决传统大模型空间认知短板，赋能具身智能、AR/VR 等领域，目前已迭代至 1.5 版本并支持对话交互。以下从核心定位、技术架构、关键能力、版本与性能、应用场景、生态协同六方面展

SpatialLM 是群核科技于 2025 年 3 月在英伟达 GTC 大会开源的空间理解多模态模型，核心是用普通手机视频低成本生成物理精确的结构化 3D 场景，解决传统大模型空间认知短板，赋能具身智能、AR/VR 等领域，目前已迭代至 1.5 版本并支持对话交互。以下从核心定位、技术架构、关键能力、版本与性能、应用场景、生态协同六方面展开详细介绍。

一、核心定位与发布背景

l 核心目标：赋予机器人类似人类的空间认知与推理能力，打通“视频输入→3D 结构化理解→语义交互→场景应用”的全链路，降低 3D 空间建模与空间理解的门槛。

l 核心痛点解决：突破传统大语言模型对物理世界几何、空间关系的理解局限，摆脱对激光雷达等昂贵设备的依赖，用消费级视频输入实现高精度 3D 重建与语义解析。

l 开源属性：面向开发者与研究社区开源，支持二次开发与适配，推动空间智能与具身智能生态发展。

二、技术架构与工作流程

SpatialLM 采用“视觉重建+点云编码+大模型语义推理”的多模态融合架构，端到端流程如下：

l 多源输入兼容：支持单目 RGB 视频（手机/相机拍摄）、RGBD 图像、LiDAR 点云等多种输入，适配消费级到专业级采集设备。

l 视频转 3D 点云：通过 MASt3R - SLAM 算法拆分视频帧，提取空间细节点、计算深度与位置，生成高密度 3D 点云模型，还原场景三维几何结构。

l 点云编码与特征压缩：专用点云编码器将非结构化点云转为紧凑特征向量，保留物体几何与语义信息，通过自适应网格划分减少约 70%计算负载。

l 大模型语义推理：基于 Llama/Qwen 等基础 LLM 框架，将特征向量映射为结构化“场景代码（scene codes）”，包含房间布局、家具尺寸、物体坐标、空间关系等机器可读信息。

l 结构化输出与格式兼容：输出可转为 IFC 等行业标准格式，适配设计软件、机器人控制系统、AR/VR 引擎等下游工具。

三、关键能力与核心优势

四、版本迭代与性能参数

五、核心应用场景

l 具身智能训练：为机器人提供低成本虚拟训练场，生成的 3D 场景经 SpatialVerse 合成数据引擎衍生亿万级变体，用于导航、避障、任务执行等训练，解决“数据短缺”问题。

l 建筑与室内设计：快速将现场视频转为 3D 布局图，辅助设计师进行方案规划、家具摆放模拟与空间优化，输出格式兼容主流设计软件。

l AR/VR 内容创建：将现实场景转化为虚拟环境素材，用于 AR 导航、VR 看房、虚拟展厅搭建，降低内容制作成本与周期。

l 空间数字化与资产管理：为商场、工厂、医院等场景生成结构化 3D 数字孪生模型，支持空间资源统计、设备定位与动线分析。

l 机器人与自动驾驶：辅助移动机器人（如扫地机、配送机器人）快速理解未知室内环境，支持实时路径规划与动态避障。

六、生态协同与对比优势

l 生态协同：与群核空间智能平台 SpatialVerse 深度联动，SpatialLM 生成的 3D 场景可通过 SpatialVerse 引擎生成海量合成数据，形成“采集 - 重建 - 合成 - 训练”闭环。

l 对比同类方案

相比 Meta SceneScript：无需定制硬件，适配消费级视频输入，自然语言交互更灵活。

相比传统 3D 重建工具：速度提升 3 倍以上，无需专业操作，自动完成语义标注与结构化输出。

七、总结

SpatialLM 以“低成本视频输入+高精度空间理解+开源赋能”为核心亮点，是连接现实空间与数字世界的关键技术桥梁。其轻量架构与多场景适配能力，使其成为空间智能领域的重要基础设施，推动具身智能、建筑数字化、AR/VR 等领域的技术落地与创新应用。

扫一扫，关注我们

上一篇：风源：气象AI的“中国时刻“——当天气预报拥有“中国芯“

下一篇：HMI、PLC与SCADA：解码工业自动化“铁三角”的协同逻辑

用网站演绎您的企业精髓！

网站首页

服务项目

加入我们

案例展示

关于我们

新闻中心

联系我们

SpatialLM：群核科技开源的 3D 空间理解多模态大语言模型

四、版本迭代与性能参数

相关新闻

感兴趣吗？