贝尔曼最优方程与Q-learning的关系
Relationship between bellman optimal equation and Q-learning
bellman 最优方程(sutton 2018 第 63 页)state-action 的最优值为
并且Q-learning是
我知道Q-learning是model-free。所以它不需要下一个状态的转换概率。
然而,贝尔曼方程的 p(s'r|s,a) 是在给定 s、a 的情况下,下一个状态 s' 与奖励 r 的转移概率。所以我认为要得到一个Q(s,a),它需要转换概率。
贝尔曼方程的Q和q-learning的Q不一样?
如果相同,q-learning 怎么和 model-free 一样工作?
有没有办法得到 Q(s,a) 而不管 q-learning 的转移概率?
或者我混淆了什么?
Q-learning 是应用于状态-动作值函数的 Bellman 方程的一个实例。它是 "model-free" 的意思是你不需要一个转换函数来确定,对于给定的决定,下一个状态。
但是,有几种 Q-Learning 的公式在已知信息方面有所不同。特别是,当你知道过渡函数时,你可以而且应该在你的 Bellman 方程中使用它。这导致您引用的等式。
另一方面,如果您不知道过渡函数,Q-learning 也可以,但您必须通过模拟对过渡函数的影响进行采样。
bellman 最优方程(sutton 2018 第 63 页)state-action 的最优值为
并且Q-learning是
我知道Q-learning是model-free。所以它不需要下一个状态的转换概率。
然而,贝尔曼方程的 p(s'r|s,a) 是在给定 s、a 的情况下,下一个状态 s' 与奖励 r 的转移概率。所以我认为要得到一个Q(s,a),它需要转换概率。
贝尔曼方程的Q和q-learning的Q不一样?
如果相同,q-learning 怎么和 model-free 一样工作?
有没有办法得到 Q(s,a) 而不管 q-learning 的转移概率?
或者我混淆了什么?
Q-learning 是应用于状态-动作值函数的 Bellman 方程的一个实例。它是 "model-free" 的意思是你不需要一个转换函数来确定,对于给定的决定,下一个状态。
但是,有几种 Q-Learning 的公式在已知信息方面有所不同。特别是,当你知道过渡函数时,你可以而且应该在你的 Bellman 方程中使用它。这导致您引用的等式。
另一方面,如果您不知道过渡函数,Q-learning 也可以,但您必须通过模拟对过渡函数的影响进行采样。