谷歌掀桌子!让AI自己发明算法,一出手就把人类最优解打成废纸

2026-04-05

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。
CAIE注册人工智能工程师
CAIE注册人工智能工程师
公众号作者
CAIE,全称 Certifed Artifcial Intelligence Engineer(人工智能工程师),简称 CAIE(赛一) ,是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近谷歌DeepMind放出一篇重磅论文,讲的是怎么让AI大模型自己去进化出全新的多智能体学习算法。

听起来有点抽象对吧,其实就是以前那些下棋打牌特别厉害的AI算法,都是咱们人类工程师一点点抠细节调出来的,过程特别像是在大海捞针。

现在他们把这个活直接丢给AI了,而且AI还真干成了,弄出来的新算法在很多标准测试里把人类专家精心设计的方案按在地上摩擦。

论文:https://arxiv.org/pdf/2602.16928

要理解这事,咱们得先聊聊背景。平时大家看AI下扑克或者玩实时战略游戏,背后其实都有一套博弈论数学框架在撑着。

里面有个很重要的概念叫可利用度,你可以把它理解成策略里的破绽值。这个数值越低,说明你的策略越完美,别人越占不到你便宜。

而为了让这个破绽值赶紧降下来,人类前辈们发明了两大算法家族,一个叫CFR,另一个叫PSRO

这俩算法就像是两套不同的练功心法。CFR比较老实,就是不断地算自己当初要是选了别的动作会不会更好,然后把这种后悔的感觉一点点攒起来,最后算出一个平均策略。

PSRO呢则像是在带徒弟,它先找出一堆不同的打法组成一个门派,然后看看怎么组合这些打法去对抗别人,接着再针对性地培养出更强的徒弟加入门派。

问题就出在练功心法的细节上。比如怎么把以前的经验折旧,怎么把不同打法混合起来,这些细节里有无数种组合方式。

人类工程师只能靠直觉去猜去试,很多时候就默认用一些最简单的线性计算或者固定的折扣比例。这种做法在海量的可能性面前其实挺无力的,很容易就错过那些看起来不按套路出牌但其实特别高效的招式。

为了打破这个僵局,DeepMind掏出了他们的秘密武器Alpha Evolve。这套系统特别有意思,把大语言模型当成了会写代码的基因编辑器。

一开始它手里拿着的是咱们人类写好的标准算法代码,然后大模型就开始发挥它的想象力,去修改里面的逻辑。这不是像以前那样随便改个参数或者调个学习率,它是直接重写算法的核心运行逻辑。

这个过程其实特别像养蛊。每次修改完代码,系统就会把新算法扔到几个小的棋盘游戏里去跑,看看破绽值降得快不快。

跑得好的就留下来,跑得不好的就淘汰。然后大模型再拿这些活下来的代码继续改。就这么循环往复,改了不知道多少代之后,奇迹就出现了。

AI首先在CFR这个家族里进化出了一个叫VAD-CFR的新变种。这个新算法的做法完全打破了人类的老观念。咱们人类以前总喜欢固定一个节奏去遗忘旧经验,但VAD-CFR不是这样,它会自己盯紧局势的波动情况。

如果发现策略变来变去特别混乱,它就干脆利落把旧经验忘得快一点,免得被噪声带偏。等局势稳下来了,它再慢慢吸收以前的经验。

而且它对那些刚刚发现的好动作特别敏感,会立刻给它们加上buff,不等待慢慢累积。最绝的是它居然有硬预热这个设定。

就像冬天开车不能一脚油门踩到底一样,它在刚开始的五百次迭代里只看热闹不记笔记,完全不管策略平均这回事。

等过了预热期,它才把那些真正有价值的策略挑出来做平均。这种做法一开始看让人觉得浪费时间,但实际跑起来效果出奇的好,在十个测试游戏里全面碾压了人类之前的最佳方案。

接着AI又去折腾PSRO这个门派,进化出了SHOR-PSRO。这个算法解决了以前门派管理的一个大痛点。

以前不管是在培养新徒弟还是考核老徒弟的时候,用的都是同一套死板的混合方法。但是SHOR-PSRO发现,训练和考核根本不应该是同一套逻辑。

它在训练新徒弟的时候,会故意混合两种思路,一种是稳扎稳打的保守派,另一种是直奔最高收益去的激进派。

而且它还会随着时间推移慢慢调整这两种思路的比例,一开始多鼓励激进派去探索各种可能性,等门派实力上来了,再慢慢把重心移回保守派去精打细算找最优解。

等到要考核门派真实水平的时候,又换了一套几乎不掺杂激进成分的纯净标准来打分。这种因时制宜的灵活变通,让它在复杂的多人博弈里表现得异常稳健。

看完这些成果,我最大的感受其实是有点后怕但又特别兴奋。以前我们总觉得AI是个执行者,你给它写好规则它就去跑。

现在它居然自己学会写规则了,而且写出来的逻辑虽然看着不太符合咱们人类的直线思维,但跑出来的成绩就是比你强。

这就像是你手把手带出来的徒弟,突然有一天告诉你师傅你那套拳法有个致命漏洞,然后打了一套你完全看不懂但就是能赢的新拳法。

从实际应用来说,这次突破的意义特别实在。以后那些做棋牌AI的,或者搞智能拍卖竞价系统的,甚至是做金融多主体博弈模拟的,都不用再苦哈哈地靠人力去抠算法细节了。

直接让AI去进化,说不定就能冒出几个奇招来解决现在的性能瓶颈。

想系统掌握AI核心技能、获取行业认可资质?

CAIE注册人工智能工程师认证

助你拓宽职业赛道,成为AI领域持证实力派

微信小程序
CAIE 认证
CAIE 认证
CAIE认证
以上内容来自微信小程序

企业、高校及渠道合作

请联系微信:FYLlaoshi

图片

完 谢谢观看

确定要退出登录吗?
确定 取消
推广有奖