这个开源多模态智能体太懂需求,把AI做网页的痛点解决了!

2026-04-20

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近,上海交大、西安交大、同济大学和微软团队,联合开源了一款专门用于网页生成的AI智能体MM-WebAgent

这个智能体最厉害的地方,是会像设计师一样分层思考、自己优化改稿,还能把图片、视频、图表自动统一风格,真正帮普通人省下大量前端开发时间。

开源地址:https://github.com/microsoft/MM-webagent

AI做网页难点在哪里

很多人可能用过AI文本生成网页的工具,输入一句话就能跑出HTMLCSS。但只要实际用过就知道,这些成品根本上不了正式场景。

真实的网页不只是文字和代码,还要配图、动态视频、数据图表。把这些内容放在一起,普通AI完全hold不住。

最常见的问题就是风格乱七八糟。图片一个画风,图表一个配色,视频又完全不搭,整个页面像素材乱拼。再就是尺寸对不上。

图片撑破容器、图表被切掉一半、视频位置错位,渲染出来根本没法看。更深层的问题是,所有素材都是孤立生成的,和页面主题、布局完全脱节。

看上去像是贴上去的,而不是和网页长在一起。这些不是小问题,是整个行业一直没跨过去的坎。

MM-WebAgent技术亮点

主流方案要么先布局再随便塞图,要么用占位符糊弄,根本不算真正的多模态生成。

MM-WebAgent的开发团队很聪明,没有硬堆模型,而是回到设计师真实的工作流。

专业设计师做网页,一定是先定整体布局,再分块做内容,反复调整优化,而不是一次性写完代码就结束。

MM-WebAgent就是按照这个思路设计的,整套流程分为四层:任务规划、分层生成、迭代反思、多级评估,每一步都在模仿人的思考方式。

第一层是局部优化,只盯着单个素材修改。AI先理解你的需求,把整个网页结构定下来:导航、头图、图表区域、分栏、配色、字体,全部提前安排好。

并且给图片、视频、图表的位置预留好尺寸和比例,从根源避免尺寸不匹配。有了全局框架,再做局部元素规划。

针对每一张图、每一段视频、每一个图表,AI都会根据它在页面的位置、作用、整体风格,给出非常具体的生成要求。

比如头图背景用柔和色调、居中构图,图表和页面配色统一、图例放在下方。这些细节指令会直接发给生成工具,保证所有素材风格统一、功能匹配。

规划完成后才开始真正生成。先把布局转为HTMLCSS,再并行生成图片、视频、图表,最后精准嵌入,形成初稿。

好设计都是改出来的,这也是MM-WebAgent最亮眼的地方。它自带三级自反思能力,相当于自己给自己审稿、自己优化。

第二层是上下文优化,解决素材和周围环境的冲突。位置不对、间距奇怪、被遮挡,AI都会直接调整代码样式,让元素和板块完美融合。

第三层是全局优化,站在整个页面的角度统一调整。把风格、间距、布局再梳理一遍,让整体更平衡、更专业、更贴合最初的设计需求。

这三步反思会自动迭代,一般两三轮就已经非常完善,效率很高,也不会浪费资源。有了好模型,必须有好的评测标准。

研发团队还建立了第一个专门用于多模态网页生成的基准,叫做MM-WebGEN-Bench

里面精选了120个高质量网页样例,覆盖十多种场景、十多种风格,包含各种类型的图片、视频、图表,非常贴近真实使用情况。

评估方式也很完整,从全局布局、风格统一、美观度,到图片、视频、图表质量,一层层打分,严谨可靠。

测试数据

在这套标准评测下,MM-WebAgent的综合得分达到0.75,远远甩开纯代码生成和普通代码智能体。以前的模型最高分也就0.47左右,提升幅度非常大。

拆开看更直观。全局指标里布局正确、风格一致、美观度都是全场最佳。局部指标里,图片质量0.88,视频质量0.75,比传统方法高几倍甚至十几倍。

以前AI基本做不出能用的视频,图片质量也很低,现在直接补齐短板。团队还做了大量对比测试。

拿掉分层规划,效果直接暴跌。关掉反思机制,分数明显下降。只给模型加AIGC工具,不加这套框架,提升微乎其微。

这说明真正起作用的,不是某个生成模型更强,而是这套会思考、会规划、会反思的架构。

成本和速度方面也不用担心。

虽然步骤更多,但因为多模态素材是并行生成的,平均耗时和现有智能体差不多,完全在可接受范围,具备实际落地的可能。

他们还找了50位有网页设计、计算机相关背景的专业人士做盲测,MM-WebAgent的胜率接近79%。在布局、内容相关性、素材质量、融合效果上,大家都更偏爱它的输出结果。

对我们普通用户来说,MM-WebAgent意味着以后做网页会变得极低成本、极高效率。

不会代码也能快速做出风格统一、质感专业的页面。企业官网、个人作品集、运营活动页,都能省掉大量时间和人力。

如果你也在做前端、设计、AI工具开发,不妨去试试这个项目,说不定能直接用到自己的工作流里。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖