2026-03-18
最近牛津联合哈佛、普林斯顿等高校的团队发布了一项重磅研究,直接给AI数学发现能力立了全新标尺,推出的HorizonMath基准不仅聚焦上百道人类未解决的数学难题,还搭建了全自动验证框架。
更让人惊喜的是,实测中GPT-5.4Pro在两道经典数学难题上给出了优于现有公开结果的解法,创下两项新纪录。
首次让AI在数学研究的无人区实现了实质性突破,比人类专家解题效率更高。

开源地址:https://github.com/ewang26/HorizonMath
其实近些年大模型的数学解题能力早已突飞猛进,GSM8K、MATH这类经典基准,前沿模型早就刷到近乎满分,就连IMO奥数题、普特南竞赛题这类高难度考题,大模型也能交出不错答卷。
但核心问题在于,这些题目都有标准答案,模型做对只是复刻已有思路,根本无法衡量其自主数学发现能力。
而研究人员开源的HorizonMath正是看准了这一痛点,设计的测试题也更加专业,能测试出AI的真实水准。

整个基准包含101道以未解决为主的数学题,覆盖数论、格模型、离散几何、连续物理等8大领域,所有题目均来自专业数学研究文献,保证科研价值。
团队还将题目分为4个难度等级:Level0为校准用的已解决题,占10%;Level1为现有技术大概率能解决的题,占23%;

Level2为需要方法论突破的难题,占59%;Level3为大概率暂时无解的题,占8%,科学的分级能清晰观测AI在不同难度的表现。
比较硬核的是,HorizonMath从根源上杜绝了数据污染,这些未解决的难题没有标准答案出现在任何公开数据中,模型无法提前背题,能给出正确解法必然是依靠自身推理能力。
同时,所有问题均要求模型给出数字、多项式等具体数学对象作为答案,而非自然语言证明。
还对闭式解做了严格要求,禁止未计算积分、无穷级数等投机性表达,只为适配自动化验证。

为了验证HorizonMath的实用性,团队用GPT-5.4 Pro、Gemini-3.1 Pro、ClaudeOpus 4.6三款前沿模型做了实测,结果反差极大。
在101道题中,人类基线仅能解决10道校准题,ClaudeOpus 4.6和Gemini-3.1Pro解题率为0,甚至在未解决问题上连合规性检查都未通过,而GPT-5.4 Pro解题率达3%。
GPT-5.4 Pro不仅搞定5道Level0校准题,还在2道Level1未解决优化题上实现突破,创下两项新纪录。
即便测试中GPT-5.4 Pro遇到13道题的API错误,其表现仍远超其他模型。
咱们来仔细唠唠AI到底解决了哪两道难题:第一个问题是关于“对角线拉姆齐数”的。
这名字听着就头大,其实你把它理解成组合数学里的一个超级难题就行。以前数学家们通过复杂的计算,找到了一个关于这个数的上限常数,大概是3.7992左右。

这个数字哪怕只降低0.0001,对数学界来说都是巨大的胜利。结果GPT-5.4 Pro愣是找到了一种新的数学构造方法,硬生生把这个常数压到了大约3.6961。
这意味着什么?意味着在某个极其复杂的数学领域,AI给出的边界比人类已知最好的边界还要紧致、精确。
这是实打实的科研贡献。AI在这个问题里用了一个更复杂的五次多项式来进行修正,比以前的三次、四次多项式都要高级,而且所有的约束条件都经过了严格的验证。
这就像是大家在用算盘算账的时候,AI突然掏出了个Excel表格,算出了更优的方案。
第二个问题更有意思,是关于Kakeya针集的,这可是几何分析里的经典问题。
想象一下,你要把一堆不同角度的细长三角形拼在一起,既要保证它们覆盖了所有的方向,又要让它们的总面积尽可能小。这就像是拼图游戏的地狱难度版本。
AlphaEvolve之前给出的最佳面积是0.11481左右。而在这次实验中,GPT-5.4 Pro给出的方案把面积缩小到了0.10915。这一下子就把纪录提升了大约5%。
为了做到这一点,AI编写了一段极其复杂的代码,它不仅仅是简单的计算,而是设计了一套策略:先构造一个Haar风格的基底,然后利用迭代下降法。
在数千个网格点上反复调整截距参数,最终找到了那个比人类更优的拼接方式。这不仅仅是计算能力的体现,更是一种策略性的智能。
HorizonMath测试结果给我的感觉,就像是那个在沙滩上捡贝壳的孩子,虽然现在捡到的只是一两枚普通的贝壳,但他已经开始向着大海深处迈进了。
对于数学这门古老而纯粹的科学来说,AI还是个新兵蛋子,它也许还会犯很多低级错误,也许会在复杂的逻辑里晕头转向。
但那两个被改写的最优常数,那两个比人类纪录更优的几何构造,都在无声地告诉我们,AI不再仅仅是做题家,已经开始学会探索未知的边界了。
想系统掌握AI核心技能、获取行业认可资质?
CAIE注册人工智能工程师认证
助你拓宽职业赛道,成为AI领域持证实力派
企业、高校及渠道合作
请联系微信:FYLlaoshi

完 谢谢观看
