如何计算 Q-learning 中的 MaxQ?

How do I calculate MaxQ in Q-learning?

我正在实施 Q-learning,特别是 Bellman 方程。

我正在使用 website 中的版本来指导他解决问题,但我有疑问: 对于 maxQ,我是否使用新状态 (s') 的所有 Q-table 值来计算最大奖励 - 在我的例子中有 4 个可能的动作 (a'),每个动作都有各自的值 - 或者Q-table 采取行动时所有仓位的值(a')?

换句话说,我是使用我可以采取的所有可能行动中的最高 Q 值,还是使用所有 "neighbouring" 个方块的总 Q 值?

您总是对所有可能采取的行动使用最大 Q 值。

我们的想法是选择下一状态 Q 值最大(最佳)的动作,以保持最优策略 Qpi*。