Q学习飞行棋游戏?

Q learning for ludo game?

我目前正在尝试实现一个使用 Q-learning 的 AI 玩家来对抗 2 个不同的随机玩家..

我不确定 Q-learning 是否适用于 ludo 游戏,这就是为什么我对此有点怀疑的原因..

我已经为游戏定义了 11 个状态。每个状态都是根据其他玩家的位置来定义的。

我可能的行动是6,(受骰子限制)。

理论上我可以有四种不同的状态(每个 Ludo Token 一个) 它可以执行骰子选择的动作,但我只会选择移动具有最高 Q(s,a) 的令牌并执行动作..

我不明白的是,更新阶段会发生什么。

我知道我用新值更新了以前的值?..

基于 wiki 的更新如下:

我不明白的是奖励值与旧值有何不同? 它是如何定义的,矩阵中的这些值有何不同?

reward 是做出某个动作的奖励,旧的 q-value 是被选为动作的 q-table 中的值,在给定的动作中是最吸引人的状态。这里的奖励将更新该条目,这样算法将来会知道此举是受益还是使结果更糟。