只用两个手机，实现4D人体场景重建！港大刷新具身智能数据采集天花板

2026-03-02

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

想让机器人或者虚拟角色像真人一样在复杂的场景里活动，我们就得喂给它大量的人类动作数据。问题是，这些数据太难搞了。

传统方案要么是那种满身贴满标记点的专业动捕服，要么是动辄几十个摄像头的专业工作室，成本高得吓人，而且只能在特定的场地里用。

而香港大学团队推出的创新框架EmbodMocap彻底打破了这一困境。仅用两个普通苹果手机，就能实现野外环境下的4D人体场景同步重建，将采集成本压至千元级别。

同时还能输出度量级精度的运动和场景数据，刷新了具身智能数据采集的行业天花板，让低成本、高精准的野外数据采集成为现实。

即将开源：https://github.com/WenjiaWang0312/EmbodMocap

具身智能的核心，是让智能体在真实世界中实现感知、理解与动作，而这一切的基础，正是高质量的场景化人体运动数据。

在此之前，主流的数据采集方案弊端尽显：多视角相机阵列只能囿于专业工作室，穿戴式动捕设备不仅会干扰人体自然动作，还会破坏RGB图像的视觉信息，激光雷达扫描仪则造价高昂、携带不便。

EmbodMocap的核心并非依赖硬件提升精度，而是通过算法层面的联合校准与优化，让两部手机的RGB-D序列精准对齐。

整个采集处理流程分为四个环环相扣的阶段，层层推进实现从视频到4D重建的转化。

咱们先从第一步说起，整个流程的第一步并不是直接拍人，而是先“踩点”。

研究者先用一部手机像扫地机器人一样在场景里逛一圈，采集周围环境的RGB图像和深度信息。

这一步利用SpectacularAI的SDK软件，能非常智能地算出摄像头的位置姿态，从而建立起一个带有真实尺寸的静态场景地图。

这里有个很关键的技术点，它生成的是Z轴向上的世界坐标系。也就是说，它已经帮系统建立了一个带重力感知的真实物理空间，不仅知道哪里是地面，还能自动把误差控制在厘米级别。

接下来才是重头戏。两名摄影师分别手持两部手机，一边跟着表演者移动拍摄，一边记录下双视角的视频流。这里面有个很聪明的小技巧，为了解决两部手机录制的视频不同步的问题。

他们在开始拍摄时用激光笔打在摄像头上，后期通过算法自动识别激光点消失的那一帧，就能极其精准地对齐两个视角的时间轴。这有点像咱们拍电影时打板的操作，只不过成本几乎为零。

有了视频数据，系统就开始自动干活了。它会自动调用一系列现成的AI模型，比如用YOLO检测画面里的人，用ViTPose识别人的关键点，用SAM2把人的轮廓扣出来，甚至还有PromptDA来修正深度图的误差。

这一套组合拳下来，哪怕只是在手机拍摄的低质量视频里，也能提取出高质量的人物和场景信息。

看过这类文章的朋友可能都知道，单目摄像头最头疼的问题就是深度歧义。简单说就是摄像头看不出来前面的人离自己到底有多远，很容易把几米外的动作误判成贴在脸前，或者把真实的位移拉长缩短。

EmbodMocap解决这个问题的思路非常巧妙，他们设计了双目校准模块。试想一下，咱们闭上一只眼睛，很难准确判断物体的距离，但睁开两只眼睛，两幅画面的视差就能帮我们立刻锁定物体位置。这个系统利用了类似的原理。

首先，系统会把两个手机拍摄的视频分别提取特征点，然后试图把这些特征点匹配到第一阶段建立的静态场景地图里。

但问题来了，手机在移动拍摄时，单靠特征点匹配很容易跑偏，误差可能高达几十厘米。为了解决这个问题，研究者们引入了一个包含多重约束的联合优化过程。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。