别再迷信“专家调参”了：谷歌用AI跑出了一套我们想不到的打法

AI提示词2个月前更新 jinlian

6 0 0

我们程序员，以前总有个底线。AI能写点界面，能补全些代码，我们觉得也还行。但是，核心算法和业务逻辑，这块得人来。这是我们的“自留地”，是最后一道防线。

但是，这道防线现在也靠不住了。

谷歌DeepMind搞了个新东西，叫AlphaEvolve。这东西做的事情不一样。它不再是学习我们给它的算法。它开始自己动手，去修改算法的代码。它要让算法“进化”。

这不是调调参数那么简单。它是真的在改算法的底层逻辑。

整个过程就像养蛊。它改完代码，就丢到真实的游戏环境里去跑。系统会自动评测。跑得好的版本留下来。跑得差的直接删掉。这样一轮一轮地筛选，进化。

结果很惊人。它真的搞出了全新的算法。在好几个测试里，它都超过了人类专家花大功夫调出来的版本。而且，它想出来的这些新方法，我们人很难凭空想出来。它们不符合我们的直觉。

最关键的是，整个过程几乎是全自动的。人只需要在一开始搭好一个架子。后面的搜索、修改代码、测试、筛选，全都由AI自己完成。我们不用再手动调参数，也不用凭感觉去反复试错了。

这个东西叫 AlphaEvolve。DeepMind很喜欢用“Alpha”这个名字，比如之前的AlphaGo。后面的“Evolve”就是“进化”的意思。这也说明了它的核心工作方式：用类似生物进化的方法来筛选和改写算法。

具体它是怎么工作的呢？

首先，研究人员没有让AI从一张白纸开始写算法。那样太难了，也容易跑偏。他们选了两个已经很成熟的算法框架。这两个框架在博弈论领域很有名。

第一个是 CFR，意思是“后悔最小化”。这个算法家族的核心思想是，在玩过很多次游戏后，它会回头看。它会计算“如果我当初换一个选择，会不会结果更好”。通过不断累积这种“后悔”的感觉，它就能慢慢优化自己的策略。这在扑克这类信息不完整的游戏里用得很多。

第二个是 PSRO，意思是“策略种群训练”。你可以把它想象成一个武馆。这个武馆里有很多不同风格的高手（策略）。每当有一个新来的踢馆者（新策略），它必须和馆里所有的高手都打一遍。通过这种方式，武馆的整体实力会越来越强。

在过去，想让这两个算法变得更厉害，是件苦差事。需要专家靠自己的经验和直觉，一点点去修改规则，调整参数。这个过程很慢，而且很看运气。

现在，AlphaEvolve把这个过程自动化了。

这是它的工作步骤：

第一步：人类设定“基因范围”。
研究人员把CFR和PSRO这两个算法的核心代码，拆分成几个关键的Python函数。比如，决定“后悔值”怎么计算的函数，或者决定当前策略怎么生成的函数。然后，他们把这些函数开放给AI。AI只能修改这些部分，算法的其他框架部分是锁死的。这就好比，你告诉AI可以改变一个生物的“眼睛颜色”或者“奔跑速度”，但不能把它改成一棵树。

第二步：AI开始“基因突变”。
然后，LLM，也就是大语言模型Gemini，就开始工作了。它像一个程序员，开始对这些开放的核心代码进行修改。它不是随机替换字符，那是乱来。它是进行有意义的修改，比如改变一个判断条件，或者调整一个更新规则。每产生一个新版本的代码，就相当于创造了一个“新物种”。

第三步：把新物种丢进“斗兽场”测试。
每个新生成的算法版本，都会被自动编译和运行。然后，系统会把它丢进一组预设好的博弈环境里去比赛。这些环境就像是专门用来测试算法的棋局或者牌局。

第四步：用数据来打分。
算法在“斗兽场”里的表现，会被一个叫 exploitability（可被利用度）的指标来量化评分。这个分数越低，就说明这个算法越厉害，越难被对手找到破绽。你可以把它理解成一个高手的“防守值”，值越低，防守越好。

第五步：优胜劣汰，循环往复。
根据分数，表现好的算法版本会被保留下来。它们会成为下一轮“基因突变”的基础，也就是“父本”。表现差的算法版本，就直接被系统删除了。

整个过程就这样循环起来：生成新代码 → 运行测试 → 评估打分 → 筛选 → 以优胜者为基础再生成。人类研究员在设定好最初的规则后，就不用再插手了。他们只需要等着看AI最后进化出了什么东西。

结果，AI 进化出了两个全新算法

那么，这场AI自己主导的“代码进化实验”，到底产出了什么？它搞出了两个全新的算法。这两个算法在它们各自的领域里，都比之前人类设计的最好版本还要强。

第一个：CFR家族的新成员，VAD-CFR

在CFR这条进化分支上，AlphaEvolve创造出了一个叫 VAD-CFR 的新算法。

这个新算法的厉害之处，不在于参数调得好。它直接改了CFR最核心的几个逻辑。它引入了两个我们人类研究员不太会想到的新机制。

一个机制叫“volatility-sensitive discounting”，意思是“波动敏感性折扣”。说白了，就是这个算法学会了看情况调整自己的“记忆力”。在训练初期，学习过程可能很不稳定，数据波动很大。这时候，它就会选择性地“忘记”一些过去的历史经验，避免被暂时的坏数据带偏。等到训练后期，过程稳定下来了，它就会更多地参考历史经验，让决策更稳健。

另一个机制叫“hard warm-start schedule”，意思是“硬性热启动规划”。这个更好理解。它就像一个长跑运动员。它在比赛的前半段不会用尽全力，而是先观察、先积累数据，让自己的状态（也就是“后悔值”）先稳定下来。这个过程就像在“热身”。等到热身结束，比如迭代了500次之后，它会突然开始发力冲刺，学习速度会快很多。

这种先“憋大招”再突然发力的策略，效果很好。

我们可以看看这张图。这张图显示了各种CFR算法在不同游戏里的表现。横轴是训练次数，纵轴是前面说的“可被利用度”（分数越低越好）。每一条不同颜色的线，代表一个不同的CFR算法。

那条灰色的线，就是AI进化出来的 VAD-CFR。

你会发现，在大部分游戏里，灰线一开始表现平平。但是在大概500次之后，它就像踩了油门，下降得很快，最终落到了比其他所有算法都低的位置。它把CFR+、DCFR这些人类专家优化过的版本都比下去了。

而且，这不只是在它熟悉的训练游戏里表现好。在下半部分那些规模更大、更难的测试游戏里，VAD-CFR依然是表现最好的那个。这说明它不是靠小技巧“应试”，而是真的从算法结构上找到了更高效的学习方法。

第二个：PSRO分支的革新者，SHOR-PSRO

在PSRO这条进化分支上，AI也搞出了一个新东西，叫 SHOR-PSRO。

它的改动非常直接，就是重新设计了“元求解器”（meta-solver）。这个“元求解器”是PSRO算法的“大脑”，它负责决定在训练的每个阶段，应该把精力放在哪里。是该多去“探索”一些全新的、没见过的策略，还是该专注于“优化”那些已知的、看起来最强的策略？这是一个平衡。

以前的算法，这个平衡点通常是固定的。比如，有些算法偏向探索，有些偏向优化。

但是 SHOR-PSRO 不一样。它设计了一个混合型的“大脑”。而且这个“大脑”是动态的，会自己调整。在训练的早期，它会鼓励算法多去探索，尽可能地增加策略的多样性。到了训练后期，它会自动把重心切换到优化上，开始集中精力逼近那个最强的均衡解。

简单说，SHOR-PSRO在“什么时候该干什么事”这个问题上，比人类设计的固定模式要聪明和灵活。

我们再来看一张图。这张图对比了SHOR和其他几种经典的PSRO方法。棕色的线就是AI进化出的 SHOR-PSRO。

图的横轴是PSRO的迭代次数，纵轴还是那个“可被利用度”。

可以看到，在几乎所有的游戏里，棕色线都是下降最快的，而且最终达到的位置也最低。尤其是在下面那些更复杂的测试游戏里，比如4人玩的库恩扑克，它的优势很明显。这证明了它的泛化能力不错。

它不是靠调整参数赢的。它是直接把那个负责调度的“大脑”给换掉了，换成了一个更智能的。

所以，这件事告诉我们什么？以前我们把AI当成一个需要我们去教、去调整的工具。现在，这个工具开始自己学习如何改进自己了。它甚至能创造出我们之前都想不到的、更好的方法。

这让一些人觉得有点“可怕”。有人说，这就好像看着一个孩子自己学会了编写教科书。也有人开始讨论，既然AI都能设计更好的学习算法了，那是不是也应该让它先给自己设计一套更完善的“伦理算法”，在它变得过于强大之前，先把规矩定好。

不管怎么说，程序员那道“最后的防线”，确实没那么牢固了。AI正在从一个单纯的执行者，变成一个可以改进自身方法的创造者。

# AI提示词

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

别再迷信“专家调参”了：谷歌用AI跑出了一套我们想不到的打法

结果，AI 进化出了两个全新算法

别让孩子的“努力”，变成AI时代的“无用功”

一杯免费咖啡背后，是AI在改变我们的购物习惯

相关文章

暂无评论