2026-06-17
5分钟测出你真实AI能力、点击下方小程序
免费领取AI入门学习资料、全套题库

英伟达刚刚重磅开源了最新空间智能体SpatialClaw。
这名字听起来有点酷哈,但他们解决的其实是AI视觉领域一个特别让人头疼的老大难问题,就是怎么让AI真正理解三维空间和复杂的几何关系。

开源地址:https://github.com/NVlabs/SpatialClaw
什么是AI空间推理
我先给大家简单科普一下到底什么是空间推理。
日常我们让AI做空间推理,就是让AI看懂多张室内实拍图、视频画面,判断物体方位、距离、朝向、相对位置。
比如给四张房间图,已知水槽靠墙朝东,判断门在水槽哪个方向,丈量沙发到马桶的实际米数,站在书桌看向电视判断卫生间方位,这些全部属于空间推理任务。

目前市面上绝大多数AI做空间推理都有致命短板,要么看图主观预判答案,出错率极高,要么只能按预设指令调用固定工具。
一旦遇到多图联动、三维空间换算这类复杂场景,AI没办法灵活拆解步骤,正确率直接断崖下跌,这也是家用服务机器人、实景导航AI,始终没办法精准判断空间方位、丈量实景距离的核心痛点。
SpatialClaw核心方法
为了解决空间推理的大难题,SpatialClaw的做法就聪明很多了。干脆直接给AI配了一个一直开着的Python运行环境。
这感觉就像咱们平时做复杂的数学大题,不是非得在脑子里把所有步骤都想明白再下笔,而是先写一步算一步,看看中间算出来的结果对不对,不对就擦掉重写。

AI在这个环境里可以自由调用感知工具,也能随时停下来看看中间算出的数据长啥样,一旦发现不对劲立马调整策略。

最绝的是这个方法完全不需要重新训练模型,0训练拿来就能直接用,结果在20个测试集上,硬生生比以前最强的同类方法高出了11.2%。
对比原生无工具大模型,平均性能直接上涨6.5%。尤其多视角联动、四维视频测距高难度场景,单项性能最高暴涨17.6%,复杂空间解题优势断层领先。

专项交互对照实验更能印证核心逻辑,同款大模型、同款视觉工具,仅更换交互模式,自主分步编码的SpatialClaw得分,远超一次性编码、固定工具调用两类模式。
这足以说明,AI空间能力大涨,不靠模型算力、不靠新增识图工具,核心就是自主编码解构空间的全新交互逻辑。
为了让咱们确信这真的是代码这个接口的功劳,研究团队还做了特别细致的拆解实验。
把那些现成的实用工具函数全删掉,只留最基础的视觉分割工具和NumPy这种科学计算库,结果发现成绩居然没怎么掉。
登录/注册后继续阅读
立即登录/注册 >