2026-04-01
最近AI视频圈真的炸了,快手可灵团队开源了一个创新多镜头视频生成模型ShotStream,直接把实时交互式叙事这件事做成了。
简单来说,以后我们用AI做视频,不用再一次性把所有镜头都写完等半天,而是可以像真人导演一样,拍一个镜头再想下一个,边导边生成,画面还能一直保持连贯稳定。

开源地址:https://huggingface.co/KlingTeam/ShotStream/tree/main
https://github.com/KlingAIResearch/ShotStream
咱们多数用AI生成的视频一直卡在两个死胡同里。要么就是质量还行,但生成特别慢,一部几分钟的多镜头视频要等几十分钟,根本没法互动。
或者速度很快,却只能做一个场景的长镜头,一切换镜头,人物场景全乱套,故事根本讲不下去。
ShotStream刚好把这两个问题一起解决了,在单张H200显卡上就能跑到接近16帧的速度,比传统的双向模型快上20多倍。
同时还能稳稳hold住好几个镜头之间的人物、场景、色调和剧情逻辑,这一点是很难同时做到的。
技术思路方面,ShotStream走了一条完全不一样的路。它把多镜头视频生成,改成了一步一步接着生成的模式。
演示实时生成视频
每一个新镜头,都只看已经生成好的内容,再往下继续拍。这样一来,用户就可以不断给新的指令,模型跟着一步步往下走,真正做到交互式创作。
最开始研发团队先训练了一个双向的老师模型。这个模型不追求速度,只负责把质量拉满。它基于快手的文生视频底座改造,只微调关键的注意力部分,训练起来很高效。
历史镜头往往有几百帧,全部塞进去肯定会卡。模型用了动态采样的方式,在固定的帧数预算里,从每个历史镜头里均匀抽关键帧,剩下的额度留给最近的镜头,既省内存又不丢信息。

然后把这些关键帧通过3DVAE转成隐层表示,再和要生成的目标帧拼在一起输入模型。
为了让历史和当前内容对应上,模型还会同时用整体剧情描述和每个镜头单独的提示,让画面和文字牢牢绑定。这个老师模型大概要50步去噪,画质很稳,但速度慢,只用来提供知识。
接下来就是关键的提速环节。研究团队用分布匹配蒸馏,把这个慢老师压缩成只有4步的快速因果学生模型。
核心就是让快速模型的输出分布,尽量贴近原来高质量模型的分布,步数少了很多,画质却不掉太多。这一步是整个模型能跑到16帧的核心原因。
速度提上来之后,最大的难题就是保持连贯。自回归生成最怕的就是越到后面越乱,误差一点点累积,最后画面崩掉。ShotStream用了两个非常巧妙的设计来稳住画面。
第一个是双缓存记忆机制。可以把它理解成模型有两种记忆。一种是长期记忆,存历史镜头里抽出来的关键帧,负责保证镜头和镜头之间人物、场景、风格统一。
另一种是短期记忆,存当前镜头已经生成的画面,保证同一个镜头里动作流畅不闪烁。两个缓存分工明确,长期管整体,短期管流畅。
光有两个缓存还不够,模型容易分不清哪些是历史画面,哪些是当前画面,时间线一乱,画面就会穿帮。于是团队又加了一个RoPE不连续指示器。
不用加额外参数,只是在镜头边界做一个小小的位置偏移,让模型一眼就能分清这是上一个镜头还是这一个镜头,时序不乱,画面自然就稳。消融实验也证明,这个设计对镜头间一致性的提升非常明显。
另一个大问题是误差累积。训练的时候模型用的是干净真实的历史画面,推理的时候却只能用自己生成的内容,时间一长偏差就会越来越大。

团队为此设计了两阶段渐进式蒸馏。
第一阶段先用真实的历史画面,让模型先学会把单个镜头做好,把基础打牢。
第二阶段完全换成模型自己生成的历史镜头,模拟真实使用的情况,逐镜头逐镜头地往下推。这样训练出来的模型,早就习惯了用自己的输出当参考,长序列生成也不容易崩。
所有技术最后都要落到效果上,ShotStream的测试数据也非常惊艳。
研究团队用了100组多样化的多镜头提示,对比了好几款主流的双向模型和自回归模型。在镜头内主体和背景一致性上,ShotStream都拿到了最高分。
镜头之间的主体和背景一致性,同样大幅领先其他模型。镜头切换的精度,文本对齐程度,也都是全场最好。美学分数和顶尖的双向模型差不多,速度却快了几十倍。

更直观的是用户测试,54个参与者在不知道模型的情况下盲选24组视频结果。
在视觉一致性上,ShotStream拿到了近88%的偏好率。提示遵循和整体视觉质量的偏好率也都超过75%,以压倒性优势赢过其他所有对比方案。
不管是客观指标还是人的主观感受,这个模型都做到了速度和质量的兼顾,这在之前是很难想象的。
以后我们通过ShotStream,可能不用再写大段复杂的提示词,而是像聊天一样,一句一句告诉AI我们想拍什么,一个镜头一个镜头地把故事讲完。
从单镜头短视频,到多镜头长叙事,AI视频正在一步步靠近真实的影视创作流程。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

完 谢谢观看
