让AI当导演,腾讯新开源太猛了!普通人一键生成影视级大片

2026-01-27

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

腾讯和西安电子科技大学开源了一个创新视频生成框架,能把几句对话直接变成专业级的电影视频,质量和效果都非常不错。

开源地址:https://github.com/Tencent/digitalhuman/tree/main/ScriptAgent

下面这个就是生成的视频,输入文本直接一键完成。

现在市面上的视频比如Sora2‑ProVeo3.1Wan2.5这些模型,随便给一句简单的文字描述,它就能生成画面相当漂亮、细节很写实的短视频。

可真要用它们来讲一个完整的、有剧情的故事,问题就一下子暴露出来了。

模型通常只能生成几秒钟到十几秒钟的片段,你想让它演个一分钟的连续戏,它就懵了,要么角色身份乱跳,一会儿长这样一会儿长那样,要么场景和镜头乱切,故事逻辑也跟着断线。

这中间缺的是什么呢?导演圈里有个金句,拍好电影就靠三样东西,剧本,还是剧本,剧本。AI视频生成缺的正是剧本这根主线。

咱们人类导演拿到对话,脑子里会自动补全画面,比如这里该用什么景别,镜头怎么动,光线和氛围怎么搭,角色在场景里怎么站位等等。

但现有模型只能盯着原始对话里的那几个词,很难把这些复杂的电影细节给补出来。

腾讯就想让AI当导演、写剧本、当评审不就完事了嘛!所以,这个框架最牛的地方在于三个各司其职的AI Agent智能体,配合起来就像一个完整的电影制作团队,从编剧到导演再到评审,一条龙服务。

导演 AIDirectorAgent 把剧本拍成连贯长视频

有了好剧本,还得有好导演来执行,DirectorAgent 就是这个导演。以前的视频模型拍不了长视频,拍出来的短片拼接在一起会很生硬,DirectorAgent 就解决了这个问题。

它先根据剧本合理拆分场景,不是随便砍断,而是顺着剧情的自然断点来,比如角色说完一句话、情绪有变化的时候,这样拆分出来的片段既符合模型的拍摄能力,又不破坏剧情连贯性。

更厉害的是它的帧锚定机制,就像接力赛一样,上一个场景的最后一帧作为下一个场景的起点,确保角色的样子、衣服、场景布局都不变,不会出现上一秒在客厅下一秒就到厨房的尴尬情况。

这个导演 AI 相当于把长视频拍摄拆成了一个个小任务,每个任务都衔接好,最后拼起来就是一部连贯的长视频,完美解决了以前模型拍长视频的痛点。不过团队也说,目前在唇形同步这些细节上还有提升空间,后续会继续优化。

编剧 AIScripter Agent 把对话变成专业剧本

Scripter Agent 的工作就是当编剧,把干巴巴的对话变成细节满满的电影剧本。

为了让它会写剧本,团队先做了个超大的数据集叫 ScriptBench,里面有 1750 个完整剧本实例,每个都配了对话、音频和角色位置信息,平均每个视频 15.4 秒,刚好适合模型学习。

这个数据集的标注特别专业,分三步来。先把对话和音频结合起来,搞清楚角色关系、场景设定这些背景信息;

再根据剧情节奏拆分镜头,每个镜头不超过 10 秒,还得避开复杂的镜头运动;

最后反复检查纠错,确保对话没遗漏、角色形象不变、场景过渡合理,连物理逻辑都要顾及,比如不能出现角色突然瞬移的情况。专业顾问还抽查了 60% 的内容,最后 94% 的剧本都达到了专业水准

确定要退出登录吗?
确定 取消
推广有奖