zero-sum 游戏的 AI 的良好适应度函数是什么?

What is a good fitness function for an AI of a zero-sum game?

我正在为 zero-sum 4 人棋盘游戏制作 AI。其实不是zero-sum(4个玩家输完生命后会"die",所以会有第一个、第二个、第三个死的玩家和一个幸存的玩家。但是,我告诉只有幸存下来的人工智能才算是赢,其他任何事情都是输)经过一番研究,我想我会结合使用极小极大算法和启发式函数。我遇到了这个 并决定做与该问题的 OP 相同的事情 - 编写一个给我最好权重的进化算法。

但是,我的启发式功能与该问题的 OP 不同。我的需要 9 个权重而且速度慢很多,所以我不能让代理玩 1000 场比赛(花费太多时间)或使用交叉方法培育它们(我如何使用 9 个权重进行交叉?)。

所以我决定想出我自己的确定适合度和繁殖的方法。而且这个问题只是关于适应度函数的问题。

这是我的尝试。

第一次尝试

对于 运行domly 生成的 50 个代理群体中的每个代理人 A,select 人口中的另外 3 个代理人(有替换但不是与 [=11 相同的代理人) =] 本身)并让 4 个代理玩一个游戏,其中 A 是第一个玩家。 Select 另一个 3 并玩一个游戏,其中 A 是第二个玩家,依此类推。对于这 4 场比赛中的每场比赛,如果 A 先死,其适应度不会改变。如果A第二个死了,它的适应度增加1。如果它死了第三个,它的适应度增加2。如果它活下来,它的适应度增加3。所以我得出结论,能得到的适应度最高的是 12(surviving/wining 所有 4 场比赛 -> 3 + 3 + 3 + 3)。

我运行这7代,从第一代开始,最高适应度高达10。而且我计算了top 10 agent的平均适应度,但是平均没有增加有点贯穿了7代。甚至还有点下降。

我认为这不起作用的原因是因为一定有一些幸运的代理人遇到了一些表现不佳的代理人作为对手。

第二次尝试

游戏设置与我的第一次尝试相同,但我没有衡量每场比赛的结果,而是决定衡量该代理在死亡前进行了多少次移动。

经过 7 代后,前 10 名的平均适应度确实增加了,但仍然没有像我认为的那样增加。

我认为失败的原因是游戏是有限的,所以你在死前可以移动的次数是有限的,而表现最好的代理人几乎达到了这个限制。没有成长空间。另一个原因是,幸存者的身体素质和第三名死亡的球员身体素质相差不大。

我想要什么

根据我对 EA 的理解(如果我错了请纠正我),平均健康状况应该会增加,而表现最好的个人的健康状况应该不会随着时间的推移而下降。

我的两次尝试都失败了。由于对手是 运行domly selected,第 1 代中表现最好的智能体可能会在下一代中遇到更强大的对手,因此其适应度会下降。

备注

在我的尝试中,智能体每代玩 200 场游戏,每一代最多需要 3 个小时,所以我不想让他们玩太多游戏。

如何编写这样的适应度函数?

七代似乎还不足以获得有用的结果。特别是对于一款游戏,我希望像 200 多代这样的东西更逼真。您可以做很多事情:

  • 实施elitism以确保最佳个体的生存。

  • 进化的力量源于反复的变异和交叉,所以我建议让代理人每代只玩几次游戏(比如,5 ~ 10),至少在开始时,然后进化种群。您甚至可能希望每一代只玩一款游戏。

  • 在这方面,可以采取持续进化的策略。这意味着一旦代理人死亡,他们就会发生变异,而一旦代理人获胜,他们就会产生后代。或者两者的任意组合。重点是比赛正在进行中,每个人都可以与其他任何人比赛。这有点 "organic" 从某种意义上说它没有严格定义的世代,但它应该加快这个过程(特别是如果你可以并行评估)。

希望对您有所帮助。您引用的 post 中接受的答案对实现交叉的方式提出了很好的建议。