算力成本节省20倍!AI2开源高效智能体,自动写代码、找Bug

2026-02-04

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近AI2开源了一个高效AI智能体SERA,全名叫软验证高效仓库智能体。

听着挺玄乎,其实它就是一帮特别擅长替咱们自动改代码、修BugAI助手。最打动我的是,它是完全开源的,不管是代码还是训练数据都大方地拿出来了,不像一些开源捂得很严实。

而且训练效率、资源利用率极高,可以比传统的强化学习训练方法节省50多倍算力。

开源地址:https://huggingface.co/collections/allenai/open-coding-agents

Githubhttps://github.com/allenai/SERA

AI2的旗舰模型是SERA-32B,在业界那个特别难啃的SWE-benchVerified测试里,它在处理32K长度的代码时能搞定近一半的问题,如果把上下文拉长到64K,成功率还能冲到一半以上。

这个成绩已经能跟那些参数量更大的封闭模型,比如Devstral或者GLM系列掰手腕了,而且它还是完全开放的,这对于咱们普通开发者和研究者来说绝对是个大福音。

你可能会好奇,这么聪明的AI智能体是怎么高效练出来的。这里有个很有意思的逻辑,咱们以前总觉得训练AI得靠试错,跟教小孩似的做对了给糖吃,做错了打手板。

但这次AI2的研究员们换了个思路,他们搞了个软验证生成的方法

简单来说,就是让一个厉害的老师模型先做一遍题,把修改过程记下来,然后根据这个过程写个类似的需求说明书,再让老师模型重新看一遍说明书,把题重做一遍

这就好比咱们考试,第一次凭感觉做,第二次根据标准答案的思路再核对一遍,如果两次改的地方差不多,那这过程大概率是对的。

这招最绝的地方在于,它不需要像以前那样非得跑完所有的测试用例才知道对不对。以前为了让AI学会改代码,得在成千上万个测试里跑来跑去,费时费力。

现在只要比对两次修改的重合度就行了。而且实验发现了一个挺反直觉的事,哪怕两次结果不完全一样,哪怕有点小噪点,用来当教材教学生模型照样好用。

咱们再聊聊成本问题,这可是大家最关心的。训练这种级别的智能体,放在以前那得是天文数字的算力堆出来的。但用了这个软验证生成的方法之后,效率高得吓人。

研究人员算了一笔账,达到同样的效果,这套方法比以前那种靠强化学习硬练的方法便宜了20多倍,比早期的合成数据管道也便宜了50多倍

确定要退出登录吗?
确定 取消
推广有奖