AI Player 表现不佳?为什么?

AI Player is not performing well? why?

我正在尝试实现一个使用 Q-learning 来玩游戏的代理 Ludo。我用一个 e-greedy 动作选择器训练它,epsilon 为 0.1,学习率为 0.6,折扣因子为 0.8。

我 运行 玩了大约 50K 步,还没有赢过一场比赛。这令人费解,因为 Q table 似乎与我想要的非常准确。为什么我输给 运行dom 玩家那么多?如果 Q-table 没有那么大的变化,系统不应该能够获胜吗?一般来说,我需要训练我的代理多少次迭代?

我不确定需要多少信息,如果需要我会用相关信息更新post。

可能的状态,表示为 Q-table 中的行:

  1. 在家
  2. 在地球上
  3. 在星星上
  4. 进球
  5. 致胜之路
  6. 与同色球员安全
  7. 免费space

可能的操作,表示为每个状态的列:

  1. 搬离家
  2. 进入目标
  3. 移动到地球
  4. 移至星标
  5. 通过星标移动到目标
  6. 使用相同颜色的令牌进入安全地带
  7. 进入赢家之路
  8. 如果对手在地球上则自杀
  9. 杀死对手
  10. 随便动
  11. 无法移动

我首先使用 运行dom 值初始化我的 Q-table,并以 table 结束,在 5000 次迭代后看起来像这样:

-21.9241  345.35 169.189 462.934 308.445 842.939 256.074  712.23 283.328 137.078   -32.8
398.895   968.8 574.977 488.216 468.481 948.541  904.77 159.578 237.928 29.7712 417.599
1314.25 756.426 333.321  589.25 616.682 583.632  481.84 457.585  683.22 329.132 227.329
1127.58 1457.92 1365.58 1429.26 1482.69 1574.66 1434.77 1195.64 1231.01 1232.07    1068
807.592 1070.17  544.13 1385.63 883.123 1662.97  524.08 966.205 1649.67 509.825 909.006
225.453 1141.34 536.544 242.647 1522.26 1484.47 297.704 993.186 589.984  689.73 1340.89
1295.03 310.461 361.776 399.866 663.152 334.657 497.956  229.94 294.462 311.505 1428.26

我的即时奖励是基于每个标记在游戏中的距离乘以常量 10,即执行一个动作后。起始位置的位置为 -1,目标位置的位置为 99。中间的所有位置的位置都在 0 - 55 之间。如果目标中有令牌,目标中每个令牌的即时奖励是否会增加额外奖励 +100 .

通常,我的球员总是将一个标记移动到球门...仅此而已。

Why I am losing so much to random players? Shouldn't the system be able to win if the Q-table isn't changing that much?

这可能是您的 Q-learning 实施中的错误。您说学习到的 Q-table 中的值与您的预期非常接近。如果值正在收敛,那么我认为它不太可能是错误,更有可能是...

您的代理正在尽其所能给出状态表示。

Q-table 个条目收敛到在给定状态下采取行动的最佳值。为了让 "optimal policy" 真正转化为我们所说的良好的 Ludo 游戏,代理学习的状态需要直接对应于棋盘游戏的状态。查看您的状态,您可以看到棋盘上的多个棋子排列映射到同一状态。例如,如果您允许玩家拥有多个标记,则状态 space 并不代表所有标记的位置(动作 space 也不代表)。这可能就是为什么您观察到代理只移动一个令牌然后停止:它看不到它有任何其他操作要采取,因为它相信它已经完成了!举另一个例子来说明这是一个怎样的问题,请注意代理可能希望根据对手棋子的位置采取不同的行动,因此为了发挥最佳效果,代理也需要此信息。此信息需要包含在您的州代表中。

您可以开始向 Q-table 添加行,但这是您将 运行 遇到的问题:Ludo 中有太多可能的状态,无法切实学习表格形式(使用 Q-table)。 大小类似于您当前的所有状态,乘以板上所有其他标记的每个可能位置。

所以要回答这个问题:

in general how many iterations would I have to train my agent?

状态 space 可以准确表示棋盘的所有排列,太多的迭代是不可行的。您需要考虑定义 features of states to learn on. These features will highlight important differences between states and discard others, so you can think of this as compressing the state space that the agent is learning on. Then you may also consider using a function approximator instead of a Q-table to cope with what will likely still be a very large number of features. You can read more about this in Reinforcement Learning: An Introduction, particularly around 3.9.