别再迷信“专家调参”了:谷歌用AI跑出了一套我们想不到的打法

AI提示词3小时前更新 jinlian
0 0

我们程序员,以前总有个底线。AI能写点界面,能补全些代码,我们觉得也还行。但是,核心算法和业务逻辑,这块得人来。这是我们的“自留地”,是最后一道防线。

但是,这道防线现在也靠不住了。

别再迷信“专家调参”了:谷歌用AI跑出了一套我们想不到的打法

谷歌DeepMind搞了个新东西,叫AlphaEvolve。这东西做的事情不一样。它不再是学习我们给它的算法。它开始自己动手,去修改算法的代码。它要让算法“进化”。

这不是调调参数那么简单。它是真的在改算法的底层逻辑。

整个过程就像养蛊。它改完代码,就丢到真实的游戏环境里去跑。系统会自动评测。跑得好的版本留下来。跑得差的直接删掉。这样一轮一轮地筛选,进化。

结果很惊人。它真的搞出了全新的算法。在好几个测试里,它都超过了人类专家花大功夫调出来的版本。而且,它想出来的这些新方法,我们人很难凭空想出来。它们不符合我们的直觉。

最关键的是,整个过程几乎是全自动的。人只需要在一开始搭好一个架子。后面的搜索、修改代码、测试、筛选,全都由AI自己完成。我们不用再手动调参数,也不用凭感觉去反复试错了。

这个东西叫 AlphaEvolve。DeepMind很喜欢用“Alpha”这个名字,比如之前的AlphaGo。后面的“Evolve”就是“进化”的意思。这也说明了它的核心工作方式:用类似生物进化的方法来筛选和改写算法。

具体它是怎么工作的呢?

首先,研究人员没有让AI从一张白纸开始写算法。那样太难了,也容易跑偏。他们选了两个已经很成熟的算法框架。这两个框架在博弈论领域很有名。

第一个是 CFR,意思是“后悔最小化”。这个算法家族的核心思想是,在玩过很多次游戏后,它会回头看。它会计算“如果我当初换一个选择,会不会结果更好”。通过不断累积这种“后悔”的感觉,它就能慢慢优化自己的策略。这在扑克这类信息不完整的游戏里用得很多。

第二个是 PSRO,意思是“策略种群训练”。你可以把它想象成一个武馆。这个武馆里有很多不同风格的高手(策略)。每当有一个新来的踢馆者(新策略),它必须和馆里所有的高手都打一遍。通过这种方式,武馆的整体实力会越来越强。

在过去,想让这两个算法变得更厉害,是件苦差事。需要专家靠自己的经验和直觉,一点点去修改规则,调整参数。这个过程很慢,而且很看运气。

现在,AlphaEvolve把这个过程自动化了。

这是它的工作步骤:

第一步:人类设定“基因范围”。
研究人员把CFR和PSRO这两个算法的核心代码,拆分成几个关键的Python函数。比如,决定“后悔值”怎么计算的函数,或者决定当前策略怎么生成的函数。然后,他们把这些函数开放给AI。AI只能修改这些部分,算法的其他框架部分是锁死的。这就好比,你告诉AI可以改变一个生物的“眼睛颜色”或者“奔跑速度”,但不能把它改成一棵树。

第二步:AI开始“基因突变”。
然后,LLM,也就是大语言模型Gemini,就开始工作了。它像一个程序员,开始对这些开放的核心代码进行修改。它不是随机替换字符,那是乱来。它是进行有意义的修改,比如改变一个判断条件,或者调整一个更新规则。每产生一个新版本的代码,就相当于创造了一个“新物种”。

第三步:把新物种丢进“斗兽场”测试。
每个新生成的算法版本,都会被自动编译和运行。然后,系统会把它丢进一组预设好的博弈环境里去比赛。这些环境就像是专门用来测试算法的棋局或者牌局。

第四步:用数据来打分。
算法在“斗兽场”里的表现,会被一个叫 exploitability(可被利用度)的指标来量化评分。这个分数越低,就说明这个算法越厉害,越难被对手找到破绽。你可以把它理解成一个高手的“防守值”,值越低,防守越好。

第五步:优胜劣汰,循环往复。
根据分数,表现好的算法版本会被保留下来。它们会成为下一轮“基因突变”的基础,也就是“父本”。表现差的算法版本,就直接被系统删除了。

整个过程就这样循环起来:生成新代码 → 运行测试 → 评估打分 → 筛选 → 以优胜者为基础再生成。人类研究员在设定好最初的规则后,就不用再插手了。他们只需要等着看AI最后进化出了什么东西。

结果,AI 进化出了两个全新算法

那么,这场AI自己主导的“代码进化实验”,到底产出了什么?它搞出了两个全新的算法。这两个算法在它们各自的领域里,都比之前人类设计的最好版本还要强。

第一个:CFR家族的新成员,VAD-CFR

在CFR这条进化分支上,AlphaEvolve创造出了一个叫 VAD-CFR 的新算法。

这个新算法的厉害之处,不在于参数调得好。它直接改了CFR最核心的几个逻辑。它引入了两个我们人类研究员不太会想到的新机制。

一个机制叫“volatility-sensitive discounting”,意思是“波动敏感性折扣”。说白了,就是这个算法学会了看情况调整自己的“记忆力”。在训练初期,学习过程可能很不稳定,数据波动很大。这时候,它就会选择性地“忘记”一些过去的历史经验,避免被暂时的坏数据带偏。等到训练后期,过程稳定下来了,它就会更多地参考历史经验,让决策更稳健。

另一个机制叫“hard warm-start schedule”,意思是“硬性热启动规划”。这个更好理解。它就像一个长跑运动员。它在比赛的前半段不会用尽全力,而是先观察、先积累数据,让自己的状态(也就是“后悔值”)先稳定下来。这个过程就像在“热身”。等到热身结束,比如迭代了500次之后,它会突然开始发力冲刺,学习速度会快很多。

这种先“憋大招”再突然发力的策略,效果很好。

我们可以看看这张图。这张图显示了各种CFR算法在不同游戏里的表现。横轴是训练次数,纵轴是前面说的“可被利用度”(分数越低越好)。每一条不同颜色的线,代表一个不同的CFR算法。

那条灰色的线,就是AI进化出来的 VAD-CFR

你会发现,在大部分游戏里,灰线一开始表现平平。但是在大概500次之后,它就像踩了油门,下降得很快,最终落到了比其他所有算法都低的位置。它把CFR+、DCFR这些人类专家优化过的版本都比下去了。

而且,这不只是在它熟悉的训练游戏里表现好。在下半部分那些规模更大、更难的测试游戏里,VAD-CFR依然是表现最好的那个。这说明它不是靠小技巧“应试”,而是真的从算法结构上找到了更高效的学习方法。

第二个:PSRO分支的革新者,SHOR-PSRO

在PSRO这条进化分支上,AI也搞出了一个新东西,叫 SHOR-PSRO

它的改动非常直接,就是重新设计了“元求解器”(meta-solver)。这个“元求解器”是PSRO算法的“大脑”,它负责决定在训练的每个阶段,应该把精力放在哪里。是该多去“探索”一些全新的、没见过的策略,还是该专注于“优化”那些已知的、看起来最强的策略?这是一个平衡。

以前的算法,这个平衡点通常是固定的。比如,有些算法偏向探索,有些偏向优化。

但是 SHOR-PSRO 不一样。它设计了一个混合型的“大脑”。而且这个“大脑”是动态的,会自己调整。在训练的早期,它会鼓励算法多去探索,尽可能地增加策略的多样性。到了训练后期,它会自动把重心切换到优化上,开始集中精力逼近那个最强的均衡解。

简单说,SHOR-PSRO在“什么时候该干什么事”这个问题上,比人类设计的固定模式要聪明和灵活。

我们再来看一张图。这张图对比了SHOR和其他几种经典的PSRO方法。棕色的线就是AI进化出的 SHOR-PSRO

图的横轴是PSRO的迭代次数,纵轴还是那个“可被利用度”。

可以看到,在几乎所有的游戏里,棕色线都是下降最快的,而且最终达到的位置也最低。尤其是在下面那些更复杂的测试游戏里,比如4人玩的库恩扑克,它的优势很明显。这证明了它的泛化能力不错。

它不是靠调整参数赢的。它是直接把那个负责调度的“大脑”给换掉了,换成了一个更智能的。

所以,这件事告诉我们什么?以前我们把AI当成一个需要我们去教、去调整的工具。现在,这个工具开始自己学习如何改进自己了。它甚至能创造出我们之前都想不到的、更好的方法。

这让一些人觉得有点“可怕”。有人说,这就好像看着一个孩子自己学会了编写教科书。也有人开始讨论,既然AI都能设计更好的学习算法了,那是不是也应该让它先给自己设计一套更完善的“伦理算法”,在它变得过于强大之前,先把规矩定好。

不管怎么说,程序员那道“最后的防线”,确实没那么牢固了。AI正在从一个单纯的执行者,变成一个可以改进自身方法的创造者。

© 版权声明

相关文章

暂无评论

暂无评论...