2026-05-19
字节跳动研究院刚刚开源了多模态全能模型 Lance。
这次字节完全没走堆参数堆算力的老路,只用了 30 亿激活参数,在不超过 128 张GPU 的训练预算下,就把图像和视频的理解、生成、编辑三大能力全部打通。
在各大公开评测榜单上直接冲到前排,性能对标比它参数大几倍的模型,甚至在不少任务上更强。

开源地址:https://huggingface.co/bytedance-research/Lance
https://github.com/bytedance/Lance
老规矩咱们先直接看效果吧。Lance可以直接完美移除小姐姐脸上的贴纸
也可以为视频直接添加场景,比如为长颈鹿的周围添加一些气球。
把视频里的男孩换成穿黑衬衫的女孩。
Lance除了可以编辑视频之外,也支持文生视频,比如输入提示词:一段精美的动画电影镜头展现了一个铜管机器人在灯笼照亮的城市广场上演奏小提琴,一只小狗静静地坐在旁边,沐浴在温暖的晚光中。
机器人占据了画面至少三分之二的面积,始终是视觉焦点。场景充满奇思妙想,画面优美,细节丰富,人物刻画鲜明,氛围优雅。镜头固定。机器人拉弓的弧线流畅优美,小狗则安静地聆听。
Lance之所以性能这么强,主要靠的是一套非常讨巧的协同技术思路。不是硬把理解和生成塞进一套参数里乱炖,而是搞了个统一上下文加上解耦能力通路的玩法。
简单来说就是大家都在同一个大教室里上课,能互相借笔记交流,但考试的时候各有各的专属答题卡。
Lance把文本图像视频全塞进一个交错序列里,不管你是要理解还是要生成,都在同一个上下文空间里转悠。
为了不让大家抢资源,还用了个双流混合专家架构,理解任务有理解专家负责,用预测下一个词的思路来练,生成任务有生成专家负责,用流匹配的思路来练。这样共享了信息又保住了各自的专业性,确实高明。

不过把一堆乱七八糟的视觉token塞进同一个序列肯定要出乱子。
你想啊,序列里既有提取出来的语义特征,又有用来做条件的干净隐层特征,还有加了噪的目标特征,这要是不加区分,模型自己都懵到底谁是谁。
Lance这里用了个特别精妙的招数叫模态感知旋转位置编码。它没有改变原有的空间位置排布,而是在时间维度上给不同类型的特征加上了专属的偏移量。
这就好给不同部门员工挂上不同颜色的工牌,虽然都在一个办公区流转,但一看工牌就知道你是哪个部门来的。
训练策略上Lance也是个十足的稳健派,玩了把分阶段通关。先搞预训练建立基本功,用海量图文视频对让模型把基础的世界观建起来,这时候还特意把编码器冻住省点算力。
接着进入持续训练阶段,开始加入交错多模态和各种复杂的编辑主体驱动数据,慢慢把专业任务能力拉上来。

然后是监督精调,用最精良的数据给模型做指令遵循和视觉一致性的特训。
最后还加了个强化学习阶段,专门死磕图文一致性这种容易出错的细节。这么四步走下来,模型的能力长得非常扎实而且不偏科。
跑分这块Lance是真的强。3B的小身板在GenEval图像生成评测里拿了0.90的高分,跟7B的模型并列第一,在DPG里更是拿到了84.67。
视频生成一直是统一模型的重灾区,结果Lance在VBench上直接干到了85.11分,登顶所有统一模型,连物理规律像重力流体这种都能模拟得有模有样。

更离谱的是多模态理解和编辑,在GEdit图像编辑评测和MVBench视频理解评测里全都是统一模型里的第一。
尤其是视频理解直接甩开第二名十几个点。这说明它真的不是那种顾此失彼的缝合怪,而是全能战士。
让我比较惊讶的还是它验证了多任务协同确实能产生化学反应。消融实验里发现,加一点理解数据进去,生成能力居然也跟着变强了,说明理解给生成提供了更好的语义基础。
而加了多任务生成数据后,视频理解能力也跟着涨了。这种互相成就的机制才是Lance最核心的护城河。
以前大家总觉得统一模型得靠大力出奇迹疯狂堆参数,现在看来路子走对了小模型也能办大事。
Lance这波算是给整个开源社区打了个样,证明了高效协同才是多模态走向落地的真正解法。
未来要是把音频3D甚至具身感知信号都接进来,再搞个流式交互,那画面简直不敢想。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

完 谢谢观看
