只用两个手机,实现4D人体场景重建!港大刷新具身智能数据采集天花板

2026-03-02

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

想让机器人或者虚拟角色像真人一样在复杂的场景里活动,我们就得喂给它大量的人类动作数据。问题是,这些数据太难搞了。

传统方案要么是那种满身贴满标记点的专业动捕服,要么是动辄几十个摄像头的专业工作室,成本高得吓人,而且只能在特定的场地里用。

而香港大学团队推出的创新框架EmbodMocap彻底打破了这一困境。仅用两个普通苹果手机,就能实现野外环境下的4D人体场景同步重建,将采集成本压至千元级别。

同时还能输出度量级精度的运动和场景数据,刷新了具身智能数据采集的行业天花板,让低成本、高精准的野外数据采集成为现实。

即将开源:https://github.com/WenjiaWang0312/EmbodMocap

具身智能的核心,是让智能体在真实世界中实现感知、理解与动作,而这一切的基础,正是高质量的场景化人体运动数据。

在此之前,主流的数据采集方案弊端尽显:多视角相机阵列只能囿于专业工作室,穿戴式动捕设备不仅会干扰人体自然动作,还会破坏RGB图像的视觉信息,激光雷达扫描仪则造价高昂、携带不便。

EmbodMocap的核心并非依赖硬件提升精度,而是通过算法层面的联合校准与优化,让两部手机的RGB-D序列精准对齐。

整个采集处理流程分为四个环环相扣的阶段,层层推进实现从视频到4D重建的转化。

咱们先从第一步说起,整个流程的第一步并不是直接拍人,而是先踩点

研究者先用一部手机像扫地机器人一样在场景里逛一圈,采集周围环境的RGB图像和深度信息。

这一步利用SpectacularAISDK软件,能非常智能地算出摄像头的位置姿态,从而建立起一个带有真实尺寸的静态场景地图。

这里有个很关键的技术点,它生成的是Z轴向上的世界坐标系。也就是说,它已经帮系统建立了一个带重力感知的真实物理空间,不仅知道哪里是地面,还能自动把误差控制在厘米级别。

接下来才是重头戏。两名摄影师分别手持两部手机,一边跟着表演者移动拍摄,一边记录下双视角的视频流。这里面有个很聪明的小技巧,为了解决两部手机录制的视频不同步的问题。

他们在开始拍摄时用激光笔打在摄像头上,后期通过算法自动识别激光点消失的那一帧,就能极其精准地对齐两个视角的时间轴。这有点像咱们拍电影时打板的操作,只不过成本几乎为零。

有了视频数据,系统就开始自动干活了。它会自动调用一系列现成的AI模型,比如用YOLO检测画面里的人,用ViTPose识别人的关键点,用SAM2把人的轮廓扣出来,甚至还有PromptDA来修正深度图的误差。

这一套组合拳下来,哪怕只是在手机拍摄的低质量视频里,也能提取出高质量的人物和场景信息。

看过这类文章的朋友可能都知道,单目摄像头最头疼的问题就是深度歧义。简单说就是摄像头看不出来前面的人离自己到底有多远,很容易把几米外的动作误判成贴在脸前,或者把真实的位移拉长缩短。

EmbodMocap解决这个问题的思路非常巧妙,他们设计了双目校准模块。试想一下,咱们闭上一只眼睛,很难准确判断物体的距离,但睁开两只眼睛,两幅画面的视差就能帮我们立刻锁定物体位置。这个系统利用了类似的原理。

首先,系统会把两个手机拍摄的视频分别提取特征点,然后试图把这些特征点匹配到第一阶段建立的静态场景地图里。

但问题来了,手机在移动拍摄时,单靠特征点匹配很容易跑偏,误差可能高达几十厘米。为了解决这个问题,研究者们引入了一个包含多重约束的联合优化过程。

确定要退出登录吗?
确定 取消
推广有奖