字节跳动新模型大突破！60秒超长视频一键生成，精准控制任意帧

2025-12-28

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

2025年末，字节跳动智能创作团队扔出了个重磅技术DreaMontage，直接把AI视频生成的玩法给升级了。

之前想做个专业的一镜到底视频，要么得砸大价钱搭场景、请团队，要么用现有AI模型做出来全是拼接痕迹，画面跳来跳去根本没法看。

现在有了这个框架，不管是零散的图片、短视频片段，都能轻松变成无缝衔接的长镜头视频，影视、广告、游戏这些行业估计要迎来大变化了。

话不多说，咱直接先看下效果。

零帧起手一键生成1分钟的超长视频镜头，相当的丝滑震撼。

喜欢看电影的朋友肯定知道，一镜到底的长镜头有多惊艳，那种沉浸式的连贯感，普通剪辑根本比不了。但现实里拍这种镜头也太折腾了，场景、调度、后期哪样都得花大价钱，还受物理空间限制，想拍点天马行空的画面基本不可能。

后来AI视频生成火了，像Sora、Kling这些模型确实能做视频，但用起来总觉得不得劲。

它们大多只能靠开头和结尾两帧来生成，中间的内容全靠模型瞎猜，经常出现画面断层，前一秒还是这个场景，下一秒突然跳转到别的地方，特别生硬。

而且想在视频中间加个特定画面、调整下节奏，根本做不到，完全没有创作的掌控感。

从技术角度说，不是这些模型不想做好，而是有三个绕不开的难题。一是中间的参考画面没法被模型精准识别，就像看书少了关键页码，自然接不上；二是不同画面之间的风格、内容差异太大，模型不知道怎么自然过渡；三是长视频生成特别吃电脑性能，普通设备根本扛不住。

字节跳动这次就是瞄准这些痛点，才搞出了DreaMontage。说直白点，就是想让咱们普通人也能拥有专业导演的创作能力，不用再被成本和技术门槛卡住。

DreaMontage本质上是在DiT架构上做了优化，核心就是三个关键点，咱们用大白话慢慢说。

1.中间条件适配想加啥画面都能精准插入

这个功能就像给视频加了个精准导航，不管你想在哪个时间点插入图片或者短视频片段，模型都能精准接住，还不影响整体流畅度。

基础模型部分，它是把参考画面的核心信息和生成视频的信息拼在一起，有点像拼图时先找到关键拼块。不过一开始会出现画面对不上的问题，就像你想插的是第5秒的画面，结果模型接到了第4-6秒的信息。

后来团队筛选了一批优质的一镜到底视频来训练，慢慢就解决了这个错位问题，而且没增加多少计算成本，普通电脑也能跑。

超分模型更有意思，专门解决高清视频的闪烁、色彩跑偏问题。它搞了个Shared-RoPE策略，简单说就是让参考画面和生成画面“对齐步调”，参考画面的关键信息不仅拼进去，还保持和目标画面一致的定位，这样放大到高清后，画面也不会忽明忽暗、颜色乱飘。

如果插入的是视频片段，就只对开头一帧做这个处理，既保证效果又不费劲儿。

训练的时候也很讲究，不是随便找视频来练。团队先筛掉多镜头的视频，只留一镜到底的，再挑那些视觉变化大、运动感强、画面好看的，还会给每个动作做详细标注。

训练时把每个动作的关键帧、随机中间帧都当参考，视频片段则是重新处理后再用，这样模型就能熟练应对各种插入需求了。

2.视觉表达优化画面和动作都更自然

光能精准插入还不够，生成的画面得有电影感，动作还得符合常理才行。DreaMontage用了两步优化，一步步把效果拉满。

第一步是视觉表达SFT，相当于给模型做专项训练。团队先找出模型之前做得不好的场景，比如镜头运动、视觉特效、体育场景这些，再细分出具体类别，像推镜、第一人称视角、动物变形这些。

然后收集了一批高质量视频，专门针对这些场景训练模型，而且这些视频时长更长，最多能到20秒，转场也更丝滑。

训练完之后效果很明显，模型生成的动作更带感了，也更能听懂指令。比如让它做一个“缓慢推镜+人物转身”的效果，之前可能动作僵硬、镜头乱晃，现在就流畅多了。

数据也能证明，运动效果的评分提升了24.58%，指令理解能力也涨了5.93%，整体观感好了不少。

第二步是定制化DPO，主要解决两个头疼问题：画面突然跳转和动作不合理。比如有时候模型会突然从草原切到城市，或者人物手臂扭成不可能的角度。

针对画面跳转，团队先训练了一个专门的识别模型，能区分视频有没有生硬跳转，再让模型生成一批视频，挑出跳转严重和流畅的做对比训练，让模型知道哪种效果更好。

针对动作不合理，就专门收集常见的问题动作，比如跑步姿势不对、车辆行驶轨迹奇怪，再通过人工标注筛选出好的案例来训练。

这么一优化，画面跳转的问题改善了12.59%，动作不合理的情况也好转了13.44%，生成的视频终于看着正常了。

3.分段自回归生成长视频也能轻松搞定

一镜到底视频往往需要很长时间，但之前的模型生成几分钟的视频就会卡顿、画面变差。DreaMontage的分段生成策略，完美解决了这个问题。

它的思路很简单，就像写文章先分段写，再整合起来。模型会把长视频分成一个个小片段，每个片段生成时都参考上一个片段的结尾，这样衔接起来就不会断层。而且分段是在latent空间进行的，不是直接拼画面，过渡会更自然。

举个例子，想生成60秒的视频，模型可能分成4个15秒的片段，第一个片段生成完，第二个片段就照着第一个的结尾来延续，以此类推。最后再把这些片段融合起来，就成了完整的长视频。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。