为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法?
Why is there no n-step Q-learning algorithm in Sutton's RL book?
我想我把事情搞砸了。
我一直认为:
- 1 步 TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
因此我得出结论:
- n 步 TD on-policy = n 步 Sarsa
- n-step TD off-policy = n-step Q-learning
然而在Sutton的书中,他并没有介绍n-step Q-Learning,但是他确实介绍了n-step off-policy Sarsa。现在我感到很困惑。
有人可以帮我命名吗?
Link to Sutton's book(第 149 页的离策略 n 步 Sarsa)
I always thought that:
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
大部分是正确的,但不是全部。 Q-learning 是 off-policy 1-step temporal-difference learning 的一个版本,但不仅如此;它专门为当前估计值贪婪的策略更新 Q 值。 Off-policy value learning可以更通用,它可以是针对任何目标policy的学习; Q-learning 更具体,它具体是关于将贪婪策略作为目标策略。
将 Q-learning 简单地扩展到 n
步骤将不再正确,因为这不适用于离策略算法(如 Q-learning)。您必须以某种方式更正 "off-policyness";一种方法是重要性采样。当您以更一般的方式(对于任何可能的目标策略)介绍它时,您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy n
-step Sarsa。我想这个算法的一个特定实例,目标策略 pi
是关于 Q
的贪婪策略,可以直观地理解为 n
的 "correct" 版本-步骤 Q 学习。
我想我把事情搞砸了。
我一直认为:
- 1 步 TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
因此我得出结论:
- n 步 TD on-policy = n 步 Sarsa
- n-step TD off-policy = n-step Q-learning
然而在Sutton的书中,他并没有介绍n-step Q-Learning,但是他确实介绍了n-step off-policy Sarsa。现在我感到很困惑。
有人可以帮我命名吗?
Link to Sutton's book(第 149 页的离策略 n 步 Sarsa)
I always thought that:
- 1-step TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning
大部分是正确的,但不是全部。 Q-learning 是 off-policy 1-step temporal-difference learning 的一个版本,但不仅如此;它专门为当前估计值贪婪的策略更新 Q 值。 Off-policy value learning可以更通用,它可以是针对任何目标policy的学习; Q-learning 更具体,它具体是关于将贪婪策略作为目标策略。
将 Q-learning 简单地扩展到 n
步骤将不再正确,因为这不适用于离策略算法(如 Q-learning)。您必须以某种方式更正 "off-policyness";一种方法是重要性采样。当您以更一般的方式(对于任何可能的目标策略)介绍它时,您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy n
-step Sarsa。我想这个算法的一个特定实例,目标策略 pi
是关于 Q
的贪婪策略,可以直观地理解为 n
的 "correct" 版本-步骤 Q 学习。