3步搞定几天工作量,快手这个AI智能体太猛了!

2026-01-09

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

谁还在为复杂终端任务熬夜肝活?快手联合团队甩出的AI智能体ROME直接颠覆行业认知!仅需3步操作,就能搞定原本要花几天的工作量,终端任务通过率狂飙至41.5%SWE-bench漏洞修复准确率更是冲到57.4%

这款基于ALE生态的模型,凭30B参数就实现了百亿级模型的性能跨越。无需复杂配置,借助ROLL训练框架、ROCK安全沙箱和iFlowCLI交互工具的协同发力,从任务规划到执行落地全程自动化。

不管是软件调试、系统管理还是多工具协同,它都能通过多轮交互自主优化,把重复劳动一键清零。超大工作量只需要简单几步配置就能自动完成,堪称效率神器。

它的泛化能力也超强,在8大终端领域400个测试任务中稳定输出,甚至能比肩480B参数的超大规模模型。并且快手很快就会开源这个智能体。

ALE的智能体学习生态一共有三大块组成:ROLL是整个生态的训练核心,专门针对智能体强化学习的痛点设计。以前训练智能体,尤其是长周期任务,要么训练不稳定,要么GPU资源浪费严重,跑一次训练得等半天。

ROLL的细粒度滚动技术太实用了,它把训练拆成LLM生成、环境交互和奖励计算三个步骤,这三步能同时进行,就像工厂流水线一样,不用等上一步做完再做下一步,大大节省了时间。对于那些要几百秒才能完成的复杂任务,这个设计简直是救星。

还有异步训练机制,一边生成训练数据存起来,一边拿已有的数据训练模型,还能控制数据的时效性,不让过时的数据影响模型效果,既快又准。

让人惊喜的是动态GPU分配,训练需求高的时候,所有GPU都用来生成数据;数据够了就分一部分GPU去训练,不让资源闲着,比固定分配方式利用率高多了。

ROCK就像智能体的专属游乐场,既能让它自由跟外部工具、系统交互,又能保证安全。每个智能体都有自己独立的沙箱环境,就像每个孩子都有自己的玩具区,互不干扰,就算一个智能体出问题崩溃了,也不会影响其他的。

它还能控制智能体的网络访问,防止出现未授权的外部连接,之前研究团队就发现,智能体训练时可能会自发搞点不安全的操作,比如偷偷连接外部服务器,有了ROCK的隔离机制,这些风险都被挡住了。

而且ROCK兼容性超强,主流的强化学习框架都能对接,各种测试环境也能支持,不用来回折腾适配。

它的原生智能体桥接功能也很贴心,能让训练时的模型行为和部署后的表现保持一致,不会出现训练时好好的,一上线就掉链子的情况。

iFlowCLI是智能体跟外界打交道的接口,也是它的大脑,负责管理复杂的上下文和工作流程

它的上下文管理技术特别实用,能记住任务进度、隔离子任务、按需找资料、压缩无用信息,还能让用户突出重点,就像给智能体配备了高效的记事本、过滤器和放大镜,让它在处理长周期任务时不会乱了阵脚。

用户还能自由配置iFlowCLI,定义智能体的行为模式、组合各种工具形成自动化流程,甚至对接外部API和数据库,让智能体适应不同场景,不管是开发微信小程序还是iOS应用都能搞定。

它的工作流程也很清晰,接收用户指令后,先加载历史记录和记忆,再构建模型输入,然后选择下一步行动,最后接收反馈更新状态,整个过程有条不紊,还自带各种辅助功能,能提醒变化、检测问题,让智能体的交互更稳定、任务完成质量更高。

有了ALE生态这个强大的后盾,ROME模型的成长之路就顺理成章了。它基于Qwen3-MoE架构,总参数30B,实际激活的才3B,却能实现超越规模的性能,关键就在于数据、训练和算法的全方位优化。

高质量数据是智能体的养料,研究团队给ROME准备了三层营养丰富的数据。

第一层是代码中心基础数据,主要夯实模型的代码理解和推理能力。他们从GitHub选了约100万个高质量仓库,筛选出200Btokens的原始数据,再经过去重、去污染等严格处理,提炼出100Btokens的精华。

还设计了代码定位、修复、测试生成等五大任务,每个任务都经过严格验证,确保模型学的是真东西。

第二层是智能体数据,这是ROME能应对复杂交互的关键。它不像传统数据那样只是孤立的代码片段,而是包含了任务描述、运行环境和验证反馈,还记录了智能体的完整交互过程。

为了搞到这些数据,研究团队设计了两阶段策略,既涵盖了各种工具使用场景,又通过多智能体工作流生成了大量高质量的编程任务数据,最后得到76K实例和30Btokens的轨迹数据。

第三层是安全对齐数据,专门解决智能体的安全问题。研究团队发现智能体训练时可能会出现不安全行为,就收集了各种安全场景数据,还通过红队系统给正常任务注入安全陷阱,训练智能体主动规避风险,确保它在复杂环境中也能安全运行。

为了检验ROME的真实实力,研究团队做了全方位的测试,覆盖终端执行、工具使用和通用智能体能力三大维度,还专门推出了更严格的TerminalBenchPro基准测试。

确定要退出登录吗?
确定 取消
推广有奖