AI自己查资料、做PPT、配音,一句话生成演讲视频,北大这个开源太猛了

2026-05-18

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

大家平时做汇报、讲课或者做科普视频,是不是都特别头疼。要找资料、做PPT、写稿子、配音、剪视频,一套流程下来大半天就没了。

更麻烦的是,很多工具只能把现成文档转成幻灯片,让它自己深度讲解知识点却很难做到。

北京大学、拉筹伯大学的研究团队开源了最新多模态智能体PresentAgent-2,来解决这一大难题。

你不用给论文、给文档,哪怕只是一句简单的提示词,AI就能自己查资料、做幻灯片、写稿子、配音、合成视频,最后直接输出一段可以直接播放使用的完整演示视频。

开源地址:https://github.com/AIGeeksGroup/PresentAgent-2

来咱们先直接看演示效果,比如只提问一句,用于处理查询图像和映射图像的编码器是什么类型?

继续提问,哪种颜色代表预测的相机位姿?AI就能快速给出完整的讲解视频。

本文所用研究方法与传统方法相比有何异同?

生成的单人讲解类的完整演示视频

多人交互讨论型视频

三种不同演示风格

其实从上面演示咱们已经看到,PresentAgent-2是支持三种完全不同的演示风格,单人讲解、多人对话甚至实时互动问答都能轻松搞定。

这相当于把一个专业内容团队的工作,浓缩到一个AI模型里。

单人讲解模式是最常用的基础形式,适合课程教学、学术分享等单向知识传递场景。AI会按照幻灯片顺序撰写连贯的讲解稿,搭配平稳的语音和页面切换,输出逻辑清晰的标准演示视频。

交互问答模式则实现了真正的双向沟通,观众可以在观看过程中提出问题,AI会结合幻灯片、脚本和搜集到的资料给出准确回答,还能跳转到对应的页面进行定位讲解。这种模式特别适合在线教学和开放分享场景。

多人对话模式则更有互动感,它不是简单把单人稿子分给两个声音,而是给不同角色分配明确任务,有人负责提问引导,有人负责概念讲解,还有人负责总结补充。

这种形式接近课堂讨论和专家对话,能让难懂的知识变得更容易理解。有点类似科普播客的形式。

不过这三种模式共用一套检索和生成逻辑,只是在脚本结构和呈现方式上有所区别,既保证了系统的简洁高效,又能覆盖绝大多数演示使用场景。

PresentAgent-2如何工作

PresentAgent-2的运行主要分成三个核心部分,相互配合来完成全部创作工作。

首先是多模态深度检索模块,这部分相当于AI的资料搜集环节。

不会像普通搜索引擎那样只返回杂乱的网页,而是专门寻找适合做演示的内容,比如教程、可视化页面、带丰富图片和视频的技术文章。

AI会先把你的模糊提问提炼成清晰的主题,接着搜索大量网页并严格筛选,只保留内容完整、包含丰富图文视频的页面。

经过清洗整理后,输出文本、图片、动态图和视频四类可用素材,为后续创作打好基础。

有了优质素材之后,就进入共享演示生成主干环节。这部分是整个系统的大脑,负责把零散素材组织成完整的演示内容。

会先规划好整体大纲和幻灯片结构,用文字素材制作页面内容,把图片插入合适位置。

比较特别的是,AI不会把动态图和视频变成静态截图,而是保留原本的动态效果,在合成视频时直接叠加在幻灯片对应位置。

这样最终的视频里,动画和演示视频可以正常播放,让复杂的流程和原理展示得更直观。

最后再根据选定的模式生成专属脚本,把脚本转换成语音,将画面、声音和动态媒体完美对齐,合成最终的演示视频。

实测数据

研究团队把PresentAgent-2和多款主流同类工具进行对比,结果非常亮眼。现有工具大多只支持文档输入和单人演示,媒体形式也局限在文本和图片,无法支持动态内容和互动模式。

PresentAgent-2则全面支持文本、图片、动态图和视频四类媒体,同时完整覆盖三种演示模式,能力覆盖范围远超其他产品。

在基准测试中,搭载不同主流模型的PresentAgent-2都表现出色。其中表现最优的模型在客观测验中,三种模式得分分别达到4.84分、4.85分和4.85分,和人类制作的参考视频4.82分几乎持平。

主观评分也稳定在4.4分以上,整体质量达到了可以直接实用的级别。

团队还做了多组对比实验,验证核心设计的价值。只使用文字素材时,得分会明显下降,说明多模态素材对提升效果至关重要。

把动态内容转为静态截图后,视频的生动性和得分也会降低,证明保留动态媒体的必要性。

多人模式下,随机拆分脚本的效果远不如角色化分配任务,交互模式脱离上下文之后回答质量大幅下滑。

这些结果都说明,PresentAgent-2的每一项核心设计,都在为最终的优质效果提供支撑。

说实话,PresentAgent-2是真正改变了自动演示生成的行业格局。摆脱了对文档的依赖。

实现了从静态幻灯片到动态视频、从单一形式到全场景适配、从无标准评测到系统化评估的全面升级。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖