Monte Carlo模拟中的"Last Good Reply"和"Rapid Action Value Estimation"是什么概念?

What is the concept of "Last Good Reply" and "Rapid Action Value Estimation" in Monte Carlo Simulation?

我开发了一个基于 Monte Carlo 树搜索的简单十六进制播放器,用于十六进制游戏。现在我想使用 RAVE(快速动作值估计)和 LGP(最后一个好的回复)来扩展十六进制播放器。文章是 here and here.
我想知道这里是否有人使用过这些方法中的任何一种来提高树搜索性能并且可以帮助我理解它?
我也想知道为什么这些算法被称为AMAF(All Moves As First)启发式?

在利用强化学习的游戏中 monte carlo 树搜索领域,有两种类型的反向传播,AMAF 和 UCT。

UCT method back-propagates the path which during selection phase it has passed. only nodes which during selection are met are back-propagated exactly at their states. But in AMAF,存储roll_out阶段遇到的所有节点,在反向传播阶段,与选择路径中的节点一起反向传播,不考虑状态.

UCT 给出了 (state,action) 对的非常精确的局部值,但它收敛速度太慢。另一方面AMAF启发式收敛速度非常快,但是(state,action)对值过于笼统,不可靠。

我们可以通过对这样的值使用递减系数来获得这两种策略的好处:

a * UCT + (1 - a) * AMAF

这是 RAVE(Rapid Action Value Stimation)启发式算法。

Last-Good-Reply 基于 AMAF,但可以从 RAVE 中获益。它的总体思路是,在对局阶段,当我们对对手的棋步使用棋步时,如果这些棋步对付对手的棋步成功,那么我们可能能够存储这些棋步并在下一次对局中使用它们。