碾压谷歌Gemma 4,阿里刚开源最强小模型!仅270亿反杀15倍参数老旗舰

2026-04-22

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今晚9点,阿里通义千问团队开源了最新稠密模型Qwen3.6-27B

现在大模型圈里总有人觉得参数越大能力越强,好像混合专家模型就是万能的,稠密模型再怎么练都追不上。

Qwen3.6-27B打破了这个局限,只用270亿参数,愣是在核心测试里干翻了自家3970亿参数的混合专家老旗舰,实现了15倍参数差的越级反杀,关键是能耗非常低。

同时在多个主流测试中大幅度超过了谷歌的Gemma4-31B,成为目前最强小模型之一。

开源地址:https://huggingface.co/Qwen/Qwen3.6-27B

https://modelscope.cn/models/Qwen/Qwen3.6-27B

其实早在Qwen3.6-Plus35B-A3B发布的时候,我就觉得通义千问这次的升级不简单,没想到阿里紧接着就放出了27B这个大招,还是社区最吃香的稠密架构。

原生多模态还保留了思考和非思考两种模式,既能做复杂的代码推理,日常的文本和视觉问答也能扛,真正做到了代码+多模态双封神。

Qwen3.6-27B核心亮点

首先就是旗舰级的代码智能体能力,这也是这次27B最让人惊喜的地方,直接把上一代3970亿参数的Qwen3.5-397B-A17B给超了,要知道后者的总参数是它的15倍,这种越级反超在大模型领域真的不多见。

其次就是稠密架构的天然优势,不用搞混合专家模型那套复杂的路由机制,部署的时候不用额外调参适配,上手就能用。

对中小团队和个人开发者来说,省去了大把的部署和调试时间,这才是真正能落地的实用型模型。

而且它不只是代码能力强,文本推理和多模态能力也没落下,能同时处理文本、图片和视频。

不管是做文档理解、视觉问答,还是复杂的STEM推理题,都能拿出不错的成绩,属于是全能型选手,不是只偏科代码的专才。

测试数据

看了下阿里官方的完整评测数据,只能说这个27B的表现真的超出预期,不管是和同规模的稠密模型比,还是和数倍于它的混合专家模型比,都稳占上风。

尤其是代码智能体的核心测试,每一项都拿了亮眼的成绩。

在开发者最看重的SWE-bench系列测试里,Verified版本拿到77.2分,而Gemma4-31B只有52分,27B足足领先了25分。

要知道这两个测试都是考察模型实际解决代码问题的能力,不是单纯的理论跑分,分数高一点就意味着实际开发中能少踩很多坑。

还有Terminal-Bench2.0这个终端实操测试,27B直接拿到59.3分,和Claude4.5Opus持平,比老旗舰高了6.8分,Skills Bench更是从30分直接干到48.2分,翻了快1.6倍,这个提升幅度真的太夸张了,依然碾压Gemma4-31B42.9分。

除了代码,推理能力也没拉胯,GPQADiamond拿到87.8分,能和数倍参数规模的模型掰手腕,MMLU-ProC-Eval这些通用知识测试,分数也都在第一梯队。

就算是和Gemma4-31B这种同规模的竞品比,也是全面领先,不管是代码、知识还是推理,基本没有短板。

作为原生多模态模型,它的视觉语言能力也保持了通义千问的一贯水准,思考和非思考模式集成在同一个权重里,不用额外加载模型,处理图片和视频的时候更省心。

STEM逻辑题里MathVista迷你版87.4分,文档理解的CC-OCR81.2分,视频理解的VideoMME87.7分,就连空间智能相关的CountBench都拿到97.8分的满分级成绩。

不管是看图片做题、识别文档内容,还是分析视频画面,都能精准理解,多模态的落地能力直接拉满。

上手简单,兼容性强

很多开发者看到阿里新出的模型都会担心上手复杂,还要适配新的工具链,这次Qwen3.6-27B完全不用有这个顾虑。

它对主流的代码助手工具都做了兼容,不管你平时用OpenClaw、通义千问代码助手还是ClaudeCode,都能无缝对接,不用重新学习新的操作方式,直接把模型换成27B就能用,开发流程一点都不用改。

阿里云模型工作室还做了OpenAIAnthropic的双协议兼容,平时用惯了ChatGPT或者ClaudeAPI的朋友。

只需要改一下base_urlapi_key,原来的代码不用动一行,就能直接调用27B的能力,这个兼容性真的太懂开发者了。

而且这次还加了preserve_thinking功能,能保留历史对话的思考过程,做复杂的智能体任务时,模型能记住之前的推理逻辑,不会半途断片,解决复杂代码问题的时候效率更高。

如果平时习惯用终端代码助手,OpenClaw只需要装个Node.js22以上版本,用curl命令一键安装,设置好API密钥就能启动。

其实这次阿里开源的Qwen3.6-27B是给整个大模型行业提了个醒,不是参数堆得越大,模型能力就越强,优质的训练数据和精细的模型调优,远比单纯的参数堆砌更重要。

而是真正从开发者的实际需求出发,把模型能力做扎实,把部署和使用门槛降下来。毕竟对我们来说,再好的模型能力,不能落地、不能轻松使用都是浮云。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖