英伟达开源最新空间AI智能体，0训练性能大涨，空间推理变天了！

2026-06-17

5分钟测出你真实AI能力、点击下方小程序

免费领取AI入门学习资料、全套题库

英伟达刚刚重磅开源了最新空间智能体SpatialClaw。

这名字听起来有点酷哈，但他们解决的其实是AI视觉领域一个特别让人头疼的老大难问题，就是怎么让AI真正理解三维空间和复杂的几何关系。

开源地址：https://github.com/NVlabs/SpatialClaw

什么是AI空间推理

我先给大家简单科普一下到底什么是空间推理。

日常我们让AI做空间推理，就是让AI看懂多张室内实拍图、视频画面，判断物体方位、距离、朝向、相对位置。

比如给四张房间图，已知水槽靠墙朝东，判断门在水槽哪个方向，丈量沙发到马桶的实际米数，站在书桌看向电视判断卫生间方位，这些全部属于空间推理任务。

目前市面上绝大多数AI做空间推理都有致命短板，要么看图主观预判答案，出错率极高，要么只能按预设指令调用固定工具。

一旦遇到多图联动、三维空间换算这类复杂场景，AI没办法灵活拆解步骤，正确率直接断崖下跌，这也是家用服务机器人、实景导航AI，始终没办法精准判断空间方位、丈量实景距离的核心痛点。

SpatialClaw核心方法

为了解决空间推理的大难题，SpatialClaw的做法就聪明很多了。干脆直接给AI配了一个一直开着的Python运行环境。

这感觉就像咱们平时做复杂的数学大题，不是非得在脑子里把所有步骤都想明白再下笔，而是先写一步算一步，看看中间算出来的结果对不对，不对就擦掉重写。

AI在这个环境里可以自由调用感知工具，也能随时停下来看看中间算出的数据长啥样，一旦发现不对劲立马调整策略。

最绝的是这个方法完全不需要重新训练模型，0训练拿来就能直接用，结果在20个测试集上，硬生生比以前最强的同类方法高出了11.2%。

对比原生无工具大模型，平均性能直接上涨6.5%。尤其多视角联动、四维视频测距高难度场景，单项性能最高暴涨17.6%，复杂空间解题优势断层领先。

专项交互对照实验更能印证核心逻辑，同款大模型、同款视觉工具，仅更换交互模式，自主分步编码的SpatialClaw得分，远超一次性编码、固定工具调用两类模式。

这足以说明，AI空间能力大涨，不靠模型算力、不靠新增识图工具，核心就是自主编码解构空间的全新交互逻辑。

为了让咱们确信这真的是代码这个接口的功劳，研究团队还做了特别细致的拆解实验。

把那些现成的实用工具函数全删掉，只留最基础的视觉分割工具和NumPy这种科学计算库，结果发现成绩居然没怎么掉。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。