2026-01-27
今天凌晨,阿里巴巴发布了最新旗舰模型Qwen3-Max-Thinking。
经过大规模和先进的强化学习训练,它在推理、知识、工具使用和智能体能力方面表现非常出色。
核心创新点有两个:一是自适应工具调用能力,能智能运用搜索、记忆和代码解释器功能,完全不用用户手动切换操作。
二是测试时缩放技术,通过多轮自我反思机制,在推理任务上的表现直接超越了Gemini 3 Pro。

免费地址:https://www.qianwen.com/chat/
API:https://www.alibabacloud.com/help/en/model-studio/compatibility-with-openai-responses-api
目前国内的千问已经上线了这个新模型,大家可以免费去体验一下啦。

咱们先说说Qwen3-Max-Thinking的基础能力,这个模型在知识储备方面确实做得不错。在MMLU-Pro这个权威测试上得了85.7分,虽然比不上最顶尖的那几个对手,但已经算是相当有实力的表现了。
特别是在C-Eval这个中文相关的测试上,它反而拿了93.7分,比大部分国外模型都要好,这说明它在中文理解和知识掌握方面确实有自己的优势。
STEM领域也是这个模型的强项,特别是在处理科学类问题的时候表现很突出。就像是在解答复杂的物理数学题那样,不是死记硬背公式,而是真的在理解问题然后给出合理的推理过程。
这种能力在实际应用中特别重要,毕竟我们平时遇到的问题很少有那种直接就能从教科书上找到标准答案的。

说到推理能力这个方面,Qwen3-Max-Thinking确实有不少亮眼之处。LiveCodeBench v6这个编程相关的测试它拿了85.9分,这个成绩相当不错了。
更让人惊讶的是在那些数学竞赛级别的测试上,比如HMMT Feb 25它居然得了98分,这几乎就是满分了。
要知道这些题目连人类顶尖选手都觉得有挑战性,一个AI能做到这个程度确实挺让人佩服的。

Qwen3-Max-Thinking的智能体能力也非常突出,能够自主决定什么时候需要用什么工具。
就像我们人类解决问题时会思考是需要查资料、写代码还是回忆之前学过的知识一样,也能在对话过程中自动判断是否需要调用搜索引擎、代码解释器或者记忆功能。
这种能力让它处理复杂问题时更加灵活,不像以前的AI那样总是一板一眼地按固定套路来。
登录/注册后继续阅读
立即登录/注册 >