清华、快手联手放大招！AI学会像人类一样运动，丝滑到离谱

2026-02-05

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近刷到个超牛的技术突破，快手的Kling团队联合清华大学和中科院自动化所的大神们，搞出了一个叫3DiMo的框架，直接解决了人体视频生成领域卡了好久的痛点。

简单说就是以前咱们用AI生成人物动作视频，要么被死死绑在固定视角里，换个角度人物动作就崩了，要么依赖那些死板的3D模型，生成的动作僵硬得像木偶。

现在有了3DiMo，既能精准复刻驱动视频里的动作，还能随心所欲调视角，简直是虚拟数字人、影视制作的大突破。

论文：https://arxiv.org/pdf/2602.03796

咱们直接看效果，非常丝滑的模拟鸡哥的打篮球动作。

网红小舞蹈轻松拿捏。

注意看，这可不是简单的2D平面模拟，而是3D立体空间的非常精准。

咱们都知道，现在市面上那些能让人跳舞、让人动起来的AI技术，说白了大多还是基于二维平面的。这就好比是你教一个人画画，你只让他看正面，那他画出来肯定也就只有正面。

以前的这些老办法，要么就是提取个二维骨架，要么就是搞个显式的三维模型。

用二维骨架的问题在于，它把动作和视角死死绑在了一起，视频是正面拍的，AI生成的也就是正面的，你想换个侧面看看？没门，因为它根本不理解侧面该长啥样。

而那些用显式三维模型的方法呢，理论上好像通了三维的道理，但实际上却很尴尬，因为从二维视频里恢复出来的三维模型，精度往往不够高。

有时候胳膊腿的位置都会搞错，这就导致生成的视频看着特别别扭，动作僵硬不说，连物理规律都违背了。

所以，研究团队就想，既然现在的大视频模型本身就很聪明，有点像人脑一样能理解空间关系，那咱们为什么非得用那些笨重又不准的外部模型去硬套它呢？

不如直接让模型自己从视频里悟出动作的精髓，这就是3DiMo最核心的想法。

要做到这一点，光靠嘴说肯定不行，得有真家伙。3DiMo的这套组合拳里，最厉害的一个模块就是他们设计的隐式运动编码器。

你可以把这个编码器想象成一个特别会抓重点的观察员。以前的方法像是把每一帧的画都原封不动地记下来，连背景是啥样都记着，但这东西没用，反而会干扰判断。

3DiMo这个编码器就聪明多了，它把那些花里胡哨的外观啊、具体的背景啊全都丢掉，只提炼出动作最核心的那个意思，变成一串特别紧凑的代码。

这个过程就像是看武侠片，你记住了那个大侠打了一套拳，但你记不住他当时穿的是红衣服还是蓝衣服，也记不住旁边有没有棵树，你只记住了那一招一式的精气神。

而且为了让它学得更纯粹，研究人员还在训练的时候故意给视频加了一些花样，比如随便改改颜色，或者假装换个角度看，逼着这个编码器只能去关注动作本身，而不是那些细枝末节的表面功夫。

光有了理解动作的大脑还不够，还得有一双灵巧的手把动作画出来。3DiMo用了一个现在很火的叫DiT的架构作为底座，这玩意儿经过海量视频的训练，天生就知道怎么画人才像人，怎么动才自然。

那么，编码器看懂的动作，是怎么告诉这个画家的呢？这里他们没用以前那种死板的拼接方式，而是用了一种很像人类沟通的交叉注意力机制。

咱们打个比方，就像是编码器在画家的耳边悄悄说了一句诀窍，画家听了之后，心领神会，手里的画笔自然就跟着动了。

但是，光教它看动作还不够，还得让它明白什么是三维空间。如果一个AI只看过正面的视频，你让它画侧面的动作，它肯定会瞎蒙。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。