2026-01-01
今天凌晨4点,知名大模型测试平台lmarena.ai发布了最新开源榜单。
结果显示,前4名全部来自中国,分别是智谱科技的GLM-4.7,月之暗面的Kimi-K2-Thinking-Turbo,第3就是大名鼎鼎的DeepSeek-V3.2,第4,是阿里巴巴的Qwen-3-235b。
第五则是法国的Mistral-Large-3。让人唏嘘的是,曾经的类ChatGPT鼻祖,全球第一批开源大语言模型Llama系列已经消失了~

下面咱就简单点评一下这10个模型。
第一个是GLM-4.7,智谱AI搞的,直接拿了第一。这模型有点像班里那种“看着没使劲但成绩贼好”的同学。参数量没说多大,但文本生成、逻辑推理这些活都能干明白,小身板活出了大模型的气场。
排第二的是月之暗面的Kimi-K2-Thinking-Turbo。它最擅长的是一步一步想事,比如算数学题、调代码,不是直接甩答案,是像人一样拆成步骤推。
第三名是DeepSeek-V3.2,深度求索的旗舰款。这模型最让人舒服的是中文理解,比如你说个带方言味的需求,它能接住。
而且配套工具特别全,微调、部署的脚本都给你弄好了,开发者上手特别快,现在社区里用它的人不少。名气算是前几个中最大的了吧。
第四是阿里的Qwen-3-235b。这模型参数量不小,但优化得很聪明,低配置的服务器也能跑起来。协议是Apache2.0,商用不用开源自己改的版本,对企业来说门槛特别低,算是阿里铺自己AI生态的一步棋。
第五是法国Mistral的Mistral-Large-3,这是前五里唯一的外国选手。英文场景下写东西、写代码都贼溜,推理速度还快,在欧美开发者里人气挺高。

第六是美团的Longcat-flash-chat,也是国产开源模型。这模型就像给生活智能体量身定做的,你问附近有啥好吃的、外卖超时了咋弄,都能精准get你的意思。
美团开源它,其实是想拉更多开发者一起做生活服务类的AI应用。
第七是小米的mimo-v2-flash,标签写着“non-thinking”,翻译过来就是不纠结复杂事,快就完了。比如智能音箱回个天气、手机弹窗回个消息,延迟特别低,中低端设备也能跑,完全是给小米的IoT生态配的。
第八是MiniMax-M2.1也是来自中国。这模型属于啥都能干点的全能替补。写文案、分析情绪都不差,还能接多模态的接口。中小团队没那么多预算的话,用它做开发性价比很高。
登录/注册后继续阅读
立即登录/注册 >