Monte Carlo 树搜索：对手移动到 MCTS 树边界之前

Monte Carlo Tree Search: Opponent moves before MCTS tree border

MCTS算法的步骤是：

选择
扩张
模拟
反向传播

我的问题是关于第三步，模拟。我们用一个新节点扩展了我们的决策树，并模拟了剩余的动作，直到游戏结束。该模拟可以分为两部分：

轮到我们利用决策树中的策略
轮流为双方玩家设置随机移动（或使用特定于游戏的替代默认策略）

本出版物的图 1 显示了分隔两个阶段的 MCTS 树线：http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf

我对第一部分感到困惑。为了模拟游戏，我们首先在第一个节点采用我们的树策略，然后对手移动，然后我们采用另一个树策略移动，依此类推，直到我们到达在算法的第 2 步中创建的节点。在我们到达树线之前，我们让对手在我们的树策略移动之间采取什么行动？一个随机移动的对手可能会阻止我们采取下一个树策略移动。还是我有其他误解？

新节点位于决策树的底部。此决策树表示两个玩家的移动。当您位于树中的一个节点时，树包含一个精确的移动序列，并以该位置结束。

剩下的走法根据playout-step模拟。

实际上，计算机通常不需要一直模拟第一阶段的动作。相反，它只会缓存节点的位置，然后可以从该点重复开始播放模拟。

Monte Carlo 树搜索：对手移动到 MCTS 树边界之前

Monte Carlo Tree Search: Opponent moves before MCTS tree border

algorithm

artificial-intelligence

montecarlo