碾压谷歌Gemma 4，阿里刚开源最强小模型！仅270亿反杀15倍参数老旗舰

2026-04-22

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

今晚9点，阿里通义千问团队开源了最新稠密模型Qwen3.6-27B。

现在大模型圈里总有人觉得参数越大能力越强，好像混合专家模型就是万能的，稠密模型再怎么练都追不上。

而Qwen3.6-27B打破了这个局限，只用270亿参数，愣是在核心测试里干翻了自家3970亿参数的混合专家老旗舰，实现了15倍参数差的越级反杀，关键是能耗非常低。

同时在多个主流测试中大幅度超过了谷歌的Gemma4-31B，成为目前最强小模型之一。

开源地址：https://huggingface.co/Qwen/Qwen3.6-27B

https://modelscope.cn/models/Qwen/Qwen3.6-27B

其实早在Qwen3.6-Plus和35B-A3B发布的时候，我就觉得通义千问这次的升级不简单，没想到阿里紧接着就放出了27B这个大招，还是社区最吃香的稠密架构。

原生多模态还保留了思考和非思考两种模式，既能做复杂的代码推理，日常的文本和视觉问答也能扛，真正做到了代码+多模态双封神。

Qwen3.6-27B核心亮点

首先就是旗舰级的代码智能体能力，这也是这次27B最让人惊喜的地方，直接把上一代3970亿参数的Qwen3.5-397B-A17B给超了，要知道后者的总参数是它的15倍，这种越级反超在大模型领域真的不多见。

其次就是稠密架构的天然优势，不用搞混合专家模型那套复杂的路由机制，部署的时候不用额外调参适配，上手就能用。

对中小团队和个人开发者来说，省去了大把的部署和调试时间，这才是真正能落地的实用型模型。

而且它不只是代码能力强，文本推理和多模态能力也没落下，能同时处理文本、图片和视频。

不管是做文档理解、视觉问答，还是复杂的STEM推理题，都能拿出不错的成绩，属于是全能型选手，不是只偏科代码的专才。

测试数据

看了下阿里官方的完整评测数据，只能说这个27B的表现真的超出预期，不管是和同规模的稠密模型比，还是和数倍于它的混合专家模型比，都稳占上风。

尤其是代码智能体的核心测试，每一项都拿了亮眼的成绩。

在开发者最看重的SWE-bench系列测试里，Verified版本拿到77.2分，而Gemma4-31B只有52分，27B足足领先了25分。

要知道这两个测试都是考察模型实际解决代码问题的能力，不是单纯的理论跑分，分数高一点就意味着实际开发中能少踩很多坑。

还有Terminal-Bench2.0这个终端实操测试，27B直接拿到59.3分，和Claude4.5Opus持平，比老旗舰高了6.8分，Skills Bench更是从30分直接干到48.2分，翻了快1.6倍，这个提升幅度真的太夸张了，依然碾压Gemma4-31B的42.9分。

除了代码，推理能力也没拉胯，GPQADiamond拿到87.8分，能和数倍参数规模的模型掰手腕，MMLU-Pro、C-Eval这些通用知识测试，分数也都在第一梯队。

就算是和Gemma4-31B这种同规模的竞品比，也是全面领先，不管是代码、知识还是推理，基本没有短板。

作为原生多模态模型，它的视觉语言能力也保持了通义千问的一贯水准，思考和非思考模式集成在同一个权重里，不用额外加载模型，处理图片和视频的时候更省心。

STEM逻辑题里MathVista迷你版87.4分，文档理解的CC-OCR81.2分，视频理解的VideoMME87.7分，就连空间智能相关的CountBench都拿到97.8分的满分级成绩。

不管是看图片做题、识别文档内容，还是分析视频画面，都能精准理解，多模态的落地能力直接拉满。

上手简单，兼容性强

很多开发者看到阿里新出的模型都会担心上手复杂，还要适配新的工具链，这次Qwen3.6-27B完全不用有这个顾虑。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。