阿里深夜炸场Qwen3-Coder-Next,最强开源AI智能体模型来了

2026-02-04

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

刚刚,阿里巴巴扔出了王炸开源Qwen3-Coder-Next,直接改写了编码AI的游戏规则。

这个模型的总参数一共有800亿,仅有30亿参数处于激活状态,可以轻松在本地部署,但性能却异常强悍。

开源地址:https://huggingface.co/collections/Qwen/qwen3-coder-next

https://modelscope.cn/collections/Qwen/Qwen3-Coder-Next

根据测试数据显示,Qwen3-Coder-NextSWE-AgentMiniSWE-AgentOpenHands三大主流智能体测试中表现非常不错,分别取得70.6%71.1%71.3%的得分,比DeepSeek-V3.2GLM-4.7KimiK2.5更强。

因为它仅使用了30亿参数,而这三个参数在320亿和370亿,同时可以比肩闭源顶级编程模型Claude-4.5

在通用知识与推理测试中,Qwen3-Coder-Next仍保持了强劲的通用能力。MMLU测试得87.73%,与通用模型Qwen3-Next87.87%几乎持平。

MMLU-Redux91.18%GPQA74.49%,均略高于Qwen3-Next,显示出编码训练对通用推理的正向迁移效应。

数学竞赛基准测试中,模型表现尤为突出,HMMT25Feb70.21%HMMT25Nov75.57%AIME2489.01%AIME2583.07%。

相较于Qwen3-Next均实现10-16个百分点的大幅提升,验证了代码推理能力向数学推理的有效迁移。

Qwen3-Coder-Next的底子是Qwen3-Next,核心亮点就是混合注意力机制和MoE架构这俩组合拳。800亿参数只是它的知识库,里面藏着各种编程技能,但干活时只让最擅长当前任务的30亿参数出马。

其实Qwen3-Coder-Next最牛的不是架构,而是它的训练方式。以前的编程AI都是对着静态代码库死记硬背,就像只看菜谱不进厨房的厨师,知道步骤但做不出好菜。

而这个模型是在真实的编程环境里练出来的,从任务设计到训练执行,每一步都贴近实际开发场景。

要练出厉害的AI,得有足够多的真实任务。阿里团队用了两种方法攒素材,最后凑出了超80万可验证的编程任务,覆盖了PythonJava这些常用语言。

一种是从GitHub上扒真实的问题修复案例,把每个修复拆成有问题的代码、正确的解决方案和测试脚本三部分,还专门做了可运行的环境。

这样AI就能像跟着资深程序员学干活一样,知道实际开发中遇到的bug该怎么修。

另一种是在现有开源项目基础上造新任务,通过各种方式给正常代码注入可控的bug,还得保证这些bug能通过特定修复解决,确保AI练的都是有用的技能。

这么多任务要高效完成,得有靠谱的平台支撑。团队自己搞了个叫MegaFlow的系统,基于阿里云的Kubernetes搭建,能让海量任务并行运行。

确定要退出登录吗?
确定 取消
推广有奖