清华大学超强开源！让AI视频生成提速100-200 倍，单GPU可用

2026-01-01

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

在AI领域，视频生成一直是消耗算力的大户。如果在本地部署，硬件差点的还能直接卡崩，完全没法满足日常创作的需求。

最近清华大学、盛数科技和加州大学伯克利分校联合开源的TurboDiffusion，彻底解决了视频生成的大难题。

这个开源可不是小打小闹的优化，而是实打实把视频生成速度提了100-200倍，关键是画质还没降，以前要等大半天的视频，现在分钟级甚至秒级就能搞定，单张RTX5090就能hold住。

其实AI视频生成慢不是没原因的，咱们用大白话讲就是，它生成视频的过程太磨叽了。

现在主流的都是扩散模型，简单说就是要从一堆杂乱的像素噪声里，一步步去掉杂质，慢慢变成清晰的视频帧，这个过程得重复上百次，每一次都要做海量计算。

就拿常见的Wan系列模型来说， 14B参数的720P高清模型，生成5秒视频居然要等4549秒，换算下来快75分钟了，等视频出来，创作的灵感都凉了。

就算是参数小一点的模型，生成同样时长也得3分钟，这对于需要快速迭代创意的创作者来说，简直是煎熬。

之前也有不少加速方案，但要么是速度提上来了，画质就崩了，画面模糊、动作卡顿，根本没法用；

要么就是对硬件要求极高，得堆好几块高端GPU才能跑起来，普通用户根本负担不起。

而TurboDiffusion最牛的地方，就是把速度和画质平衡得恰到好处，用普通显卡就能跑出超高效率。

TurboDiffusion能有这么夸张的加速效果，不是靠某一项黑科技，而是四个关键技术配合得恰到好处，就像一个默契的团队，各自发挥所长，最后实现了1+1+1+1远大于4的效果。

注意力机制是AI视频生成的核心，相当于AI的“眼睛”，负责捕捉画面里的各种关联，比如人物的动作、物体的位置变化。但这个“眼睛”以前太费资源了，计算量跟着画面复杂度呈几何级数增长，画面稍微复杂一点就卡得不行。

TurboDiffusion用的SageAttention2++，简单说就是给这个“眼睛”做了“瘦身”手术。它把原本32位的计算精度，压缩到8位，就像把一个超大的文件压缩成小文件，传输和处理都快了很多。

但它不是粗暴压缩，而是会重点保护那些对画面影响大的关键信息，就像打包行李时，把重要的东西小心收好，不重要的杂物精简掉，既省空间又不耽误用。

而且它还会把数据分成128×128的小块来处理，刚好能适配GPU的计算单元，让硬件性能发挥到极致。这么一套操作下来，光注意力计算就快了3-5倍，画质却没什么变化，肉眼几乎看不出差别。

如果说低比特注意力是给计算“瘦身”，那稀疏线性注意力（SLA）就是让AI“偷懒”，只做必要的计算，没用的直接跳过。

以前AI计算注意力的时候，不管相关不相关，都会一个个去比对，就像在一堆文件里找东西，不管有没有用都逐页翻，特别浪费时间。而SLA就像给AI装了个智能筛选器，能自动识别哪些关联是重要的，只保留10%的关键连接，剩下90%无关的直接忽略，计算量一下就降下来了。

更厉害的是，这种“偷懒”不是瞎来的。工程师会用数据再训练一遍模型，让它适应这种精简模式，就像让一个人先熟悉工作流程，再教他哪些步骤可以简化，最后效率提升了，工作质量还不打折。而且这种方式和低比特注意力能叠加使用，相当于给速度提了双重buff。

扩散模型生成视频，原本要上百次迭代采样，就像画画要一笔一笔慢慢画，每一笔都不能少。

而TurboDiffusion用的rCM步蒸馏技术，相当于找了个“老师傅”教“新徒弟”，让一个经过训练的高效模型，学习原来复杂模型的所有技能，然后用更简单的步骤完成同样的工作。

原来要100步才能完成的去噪过程，现在3-4步就搞定了，这速度能不快吗？而且这个“徒弟”还继承了前面两种注意力技术的优势。

每一步计算都又快又准，相当于又快又好地完成了原本繁琐的工作。单这一项技术，就能让采样过程快20-30倍，说是提速核心一点不为过。

除了注意力和采样步骤，模型里的线性层也是个“吃资源大户”。TurboDiffusion用的W8A8量化，就是给这些线性层做“压缩”，把原本32位的参数和计算数据，都改成8位整型。

这就像把一个超大的软件安装包，压缩成迷你版，安装速度变快了，占用的内存也少了很多。经过这种压缩，模型大小差不多能减一半，原本需要40多GB显存才能跑的大模型，现在10GB以内就够了，普通GPU也能轻松驾驭。而且计算速度也快了2-3倍，功耗还降了不少，又快又省电，简直是双赢。

另外工程师还做了些细节优化，比如重新编写了一些常用操作的代码，让它们更适配GPU，就像给软件做了个优化补丁，虽然是小改动，但累积起来也能提升不少速度。

TurboDiffusion的训练过程其实不复杂，核心就是“改造+融合”。先是把原来模型的全注意力换成SLA，再用数据训练一遍，让模型适应稀疏模式；同时并行训练一个少步骤的模型，学原来复杂模型的本事；最后把这两个训练的成果融合到一起，形成一个又快又好的新模型。

整个训练不用从零开始，基于已有的预训练模型就行，3-5天就能完成，效率还挺高。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。