贝尔曼最优方程与Q-learning的关系

Relationship between bellman optimal equation and Q-learning

bellman 最优方程(sutton 2018 第 63 页)state-action 的最优值为

Math expression

并且Q-learning是

我知道Q-learning是model-free。所以它不需要下一个状态的转换概率。

然而,贝尔曼方程的 p(s'r|s,a) 是在给定 s、a 的情况下,下一个状态 s' 与奖励 r 的转移概率。所以我认为要得到一个Q(s,a),它需要转换概率。

贝尔曼方程的Q和q-learning的Q不一样?

如果相同,q-learning 怎么和 model-free 一样工作?

有没有办法得到 Q(s,a) 而不管 q-learning 的转移概率?

或者我混淆了什么?

Q-learning 是应用于状态-动作值函数的 Bellman 方程的一个实例。它是 "model-free" 的意思是你不需要一个转换函数来确定,对于给定的决定,下一个状态。

但是,有几种 Q-Learning 的公式在已知信息方面有所不同。特别是,当你知道过渡函数时,你可以而且应该在你的 Bellman 方程中使用它。这导致您引用的等式。

另一方面,如果您不知道过渡函数,Q-learning 也可以,但您必须通过模拟对过渡函数的影响进行采样。