微软发布最大视觉智能体训练集,30万任务训练AI“特种兵”

2026-01-10

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

说真的,以前多数训练AI智能体逛网页的思路太离谱了,给的任务少得可怜,就那几个固定网站来回折腾,AI练的全是死记硬背的套路。

还有就是任务太简单,连跨个页面找信息都算不上,真到了实际网站上,面对花花绿绿的界面和随时更新的内容,直接就懵圈了。

所以,微软、卡内基梅隆大学和伊利诺伊大学联合发布了最大的视觉智能体数据集WebGym,相当于AI界的“健身房”,专门用于训练高质量视觉智能体。

WebGym算是把训练数据这块儿给玩明白了。它不自己从零造任务,而是把市面上10个主流数据集全整合了,然后用GPT-4o帮忙拆解、扩充,最后搞出了近30万个任务,覆盖了12万多个网站。其规模达到传统数据集的3倍以上。

任务集的构建始于高质量种子数据的聚合。研究团队收集了10个当前主流的Web智能体基准数据集和训练环境,涵盖多元应用场景:既有InSTA-v3这样覆盖146,348个网站的广谱数据集,也有PAE-WebVoyager的合成任务集;

BrowseCompGAIA-Web等包含高难度验证性任务的数据集,也纳入了Mind2Web-Live等经过人类验证的可解任务集。这种多源数据融合的方式,确保了初始任务库的多样性和质量。

为解决任务规模不足和难度梯度缺失的问题,WebGym创新性地引入了基于评估准则的任务分解机制。

借助GPT-4o模型,每个种子任务被转化为结构化的"事实组",每个事实组包含一个或多个可验证的评估要点,任务难度则定义为事实组中所有事实的总数。

当一个任务包含至少2个事实组,且其中至少一个事实组包含3个及以上事实时,系统会自动生成该任务的分解变体,通过选取事实组的合理子集,构建难度更低但目标一致的新任务。

例如,原始任务查看网页上所有商品,比较价格和数量,将单位价格最低的商品加入购物车,被分解为两个事实组:"商品信息提取"(包含3个事实)和"购物车操作"(包含1个事实)。

系统自动生成简化任务"查看所有商品的价格和数量,计算单位价格",难度从5级(中等)降至3级(简单)。这种分解机制不仅使任务数量从原始的258,595个扩充至292,092个。

更构建了从简单原子任务(1-3个事实)到复杂组合任务(7个以上事实)的完整难度梯度,其中简单任务占比约80%,为智能体的渐进式学习提供了合理的课程体系。

任务集的另一大特色是严格的域多样性与评估机制。基于Mind2Web-2分类体系,WebGym的任务覆盖食品、科技、生活方式、旅行、职业等6大领域24个子领域,确保智能体能够学习跨场景的通用交互能力。

同时,每个任务都配备了基于事实组的评估准则,避免传统任务评估中"成功/失败"二元判断的模糊性。

WebGym还构建了一套可复用、可扩展的视觉Web智能体训练范式,其核心创新点主要有三个方面。

在任务构建层面,提出了"评估准则驱动的任务生成"框架。通过将任务分解为结构化的事实组,既解决了任务规模不足的问题,又为精准评估和奖励设计提供了基础。

这种方法生成的任务具有天然的难度梯度和语义一致性,避免了传统合成任务可能出现的逻辑矛盾或不可解问题。

PAE的合成任务生成相比,WebGym无需执行Agent rollout即可生成新任务,大幅降低了数据构建成本;与AgentSynth相比,通过严格的事实组筛选,避免了近重复任务的出现,提升了数据质量。

确定要退出登录吗?
确定 取消
推广有奖