MaxQ' 是所有可能奖励的总和还是最高可能奖励?

Is MaxQ' sum of all possible rewards or highest possible reward?

我正在编写一个简单的 q 学习示例,要更新 q​​ 值,您需要一个 maxQ'。

我不确定maxQ'是指所有可能奖励的总和还是可能的最高奖励:

这是针对状态 s' 的所有可能操作中的最大值 Q-values。基本上,对于状态 s' 中的所有有效操作 a',您需要对所有 Q(s',a') 采取 max