贝尔曼最优方程与Q-learning的关系

Relationship between bellman optimal equation and Q-learning

bellman 最优方程（sutton 2018 第 63 页）state-action 的最优值为

$Math expression$

并且Q-learning是

我知道Q-learning是model-free。所以它不需要下一个状态的转换概率。

然而，贝尔曼方程的 p(s'r|s,a) 是在给定 s、a 的情况下，下一个状态 s' 与奖励 r 的转移概率。所以我认为要得到一个Q(s,a)，它需要转换概率。

贝尔曼方程的Q和q-learning的Q不一样？

如果相同，q-learning 怎么和 model-free 一样工作？

有没有办法得到 Q(s,a) 而不管 q-learning 的转移概率？

或者我混淆了什么？

Q-learning 是应用于状态-动作值函数的 Bellman 方程的一个实例。它是 "model-free" 的意思是你不需要一个转换函数来确定，对于给定的决定，下一个状态。

但是，有几种 Q-Learning 的公式在已知信息方面有所不同。特别是，当你知道过渡函数时，你可以而且应该在你的 Bellman 方程中使用它。这导致您引用的等式。

另一方面，如果您不知道过渡函数，Q-learning 也可以，但您必须通过模拟对过渡函数的影响进行采样。