MaxQ' 是所有可能奖励的总和还是最高可能奖励?
Is MaxQ' sum of all possible rewards or highest possible reward?
我正在编写一个简单的 q 学习示例,要更新 q 值,您需要一个 maxQ'。
我不确定maxQ'是指所有可能奖励的总和还是可能的最高奖励:
这是针对状态 s'
的所有可能操作中的最大值 Q-values
。基本上,对于状态 s'
中的所有有效操作 a'
,您需要对所有 Q(s',a')
采取 max
。
我正在编写一个简单的 q 学习示例,要更新 q 值,您需要一个 maxQ'。
我不确定maxQ'是指所有可能奖励的总和还是可能的最高奖励:
这是针对状态 s'
的所有可能操作中的最大值 Q-values
。基本上,对于状态 s'
中的所有有效操作 a'
,您需要对所有 Q(s',a')
采取 max
。