牛津、哈佛新研究，GPT-5.4 Pro创造2个世界纪录，AI攻克数学无人区

2026-03-18

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近牛津联合哈佛、普林斯顿等高校的团队发布了一项重磅研究，直接给AI数学发现能力立了全新标尺，推出的HorizonMath基准不仅聚焦上百道人类未解决的数学难题，还搭建了全自动验证框架。

更让人惊喜的是，实测中GPT-5.4Pro在两道经典数学难题上给出了优于现有公开结果的解法，创下两项新纪录。

首次让AI在数学研究的无人区实现了实质性突破，比人类专家解题效率更高。

开源地址：https://github.com/ewang26/HorizonMath

其实近些年大模型的数学解题能力早已突飞猛进，GSM8K、MATH这类经典基准，前沿模型早就刷到近乎满分，就连IMO奥数题、普特南竞赛题这类高难度考题，大模型也能交出不错答卷。

但核心问题在于，这些题目都有标准答案，模型做对只是复刻已有思路，根本无法衡量其自主数学发现能力。

而研究人员开源的HorizonMath正是看准了这一痛点，设计的测试题也更加专业，能测试出AI的真实水准。

整个基准包含101道以未解决为主的数学题，覆盖数论、格模型、离散几何、连续物理等8大领域，所有题目均来自专业数学研究文献，保证科研价值。

团队还将题目分为4个难度等级：Level0为校准用的已解决题，占10%；Level1为现有技术大概率能解决的题，占23%；

Level2为需要方法论突破的难题，占59%；Level3为大概率暂时无解的题，占8%，科学的分级能清晰观测AI在不同难度的表现。

比较硬核的是，HorizonMath从根源上杜绝了数据污染，这些未解决的难题没有标准答案出现在任何公开数据中，模型无法提前背题，能给出正确解法必然是依靠自身推理能力。

同时，所有问题均要求模型给出数字、多项式等具体数学对象作为答案，而非自然语言证明。

还对闭式解做了严格要求，禁止未计算积分、无穷级数等投机性表达，只为适配自动化验证。

为了验证HorizonMath的实用性，团队用GPT-5.4 Pro、Gemini-3.1 Pro、ClaudeOpus 4.6三款前沿模型做了实测，结果反差极大。

在101道题中，人类基线仅能解决10道校准题，ClaudeOpus 4.6和Gemini-3.1Pro解题率为0，甚至在未解决问题上连合规性检查都未通过，而GPT-5.4 Pro解题率达3%。

GPT-5.4 Pro不仅搞定5道Level0校准题，还在2道Level1未解决优化题上实现突破，创下两项新纪录。

即便测试中GPT-5.4 Pro遇到13道题的API错误，其表现仍远超其他模型。

咱们来仔细唠唠AI到底解决了哪两道难题：第一个问题是关于“对角线拉姆齐数”的。

这名字听着就头大，其实你把它理解成组合数学里的一个超级难题就行。以前数学家们通过复杂的计算，找到了一个关于这个数的上限常数，大概是3.7992左右。

这个数字哪怕只降低0.0001，对数学界来说都是巨大的胜利。结果GPT-5.4 Pro愣是找到了一种新的数学构造方法，硬生生把这个常数压到了大约3.6961。

这意味着什么？意味着在某个极其复杂的数学领域，AI给出的边界比人类已知最好的边界还要紧致、精确。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。