阿里、上海交大最新智能体太顶了，AI学会自己出题复盘，正确率大涨

2026-06-08

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近阿里联合上交大搞了个叫Socratic-SWE的新框架，专门用来训练写代码修Bug的AI智能体。

我看完论文，这个确实解决了一个困扰业界很久的难题，而且实测效果不错正确率大涨。

论文地址：https://arxiv.org/pdf/2606.07412

老套路太坑人

咱们先说说现在的AI程序员是怎么练出来的。你想让AI学会在真实项目里改Bug，通常得靠强化学习，把它扔进代码仓库里一顿试错，做对了给奖励做错了扣分。

但问题来了，哪来那么多高质量的Bug让它练手？现实是极度缺数据。

为了凑数，大家普遍用合成数据的办法，比如按规则自动改几行代码，或者人为注入点漏洞。这种老套路属于开环静态架构，毛病一大堆。

第一，题目是提前批量生成的，AI变强了题目难度却不变。第二，这些题目完全不顾及AI到底哪里学得差，就好比给所有学生发同一套卷子，数学不好的在练语文，根本不对症下药。

让人痛心的是第三点，AI在仓库里折腾时留下的解题轨迹，也就是它怎么找文件怎么改代码怎么跑测试的完整记录，仅仅被用来算个得分，算完就扔了。

这里面其实藏着大量高价值信息，比如AI容易在哪个步骤踩坑，哪种修复逻辑最有效，全浪费了。

Socratic-SWE创新解决方法

Socratic-SWE的核心思路就是把这笔被丢弃的财富重新利用起来，建起一个轨迹提炼技能、技能引导任务、任务产生新轨迹的闭环。

主要让同一个大模型分饰两角，既当出题的生成器，又当做题的求解器，两者交替着进化。简单来说，就是让AI学会自己给自己出卷子复盘，哪不行练哪。

怎么个进化法呢？第一步是把废纸篓里的解题轨迹捡回来提炼成技能。AI做过的卷子不管是做对的还是做错的，全都保留。对的操作提取出通用策略，错的操作专门记录下它的踩坑方式。

然后团队用一个蒸馏模型去批量解析这些轨迹，把反复出现的行为模式变成一条条结构化的技能，每条技能都包含名称、适用场景和具体操作步骤。

有了这些技能，就相当于给AI建了一个错题本和好题本，里面精准标注了它的能力短板和有效方法。

接着还要经过去重和覆盖率筛选，留下真正有通用指导意义的内容，这就组成了智能体技能注册表。

有了错题本，出题就有方向了。第二步是技能引导的任务生成与校验。生成器会从技能注册表里随机抽一条技能，结合真实的代码仓库和AI当前的训练进度，量身定制一个修复任务，还要顺手写出验证测试用例。

当然，AI自己出的题不能直接用，万一它瞎编一个不存在的文件呢？所以框架搞了四层沙箱校验机制。

先是看格式对不对，再看提到的文件在仓库里是不是真有，接着跑一下确认环境没故障，最后还得验证这个测试用例真能区分出修好和没修好的状态，且确实存在修好的可能。一道题得连过四关才算合格。

不过光是能跑通还不够，有些题太简单或者偏门，做了也白做。怎么挑出真正能帮AI涨水平的题呢？团队想了个很绝的招，叫求解器梯度对齐奖励。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。