为什么 Sutton 的 RL 书中没有 n-step Q-learning 算法?

Why is there no n-step Q-learning algorithm in Sutton's RL book?

我想我把事情搞砸了。

我一直认为:
- 1 步 TD on-policy = Sarsa
- 1-step TD off-policy = Q-learning

因此我得出结论: - n 步 TD on-policy = n 步 Sarsa
- n-step TD off-policy = n-step Q-learning

然而在Sutton的书中,他并没有介绍n-step Q-Learning,但是他确实介绍了n-step off-policy Sarsa。现在我感到很困惑。

有人可以帮我命名吗?

Link to Sutton's book(第 149 页的离策略 n 步 Sarsa)

I always thought that:

  • 1-step TD on-policy = Sarsa
  • 1-step TD off-policy = Q-learning

大部分是正确的,但不是全部。 Q-learning 是 off-policy 1-step temporal-difference learning 的一个版本,但不仅如此;它专门为当前估计值贪婪的策略更新 Q 值。 Off-policy value learning可以更通用,它可以是针对任何目标policy的学习; Q-learning 更具体,它具体是关于将贪婪策略作为目标策略。

将 Q-learning 简单地扩展到 n 步骤将不再正确,因为这不适用于离策略算法(如 Q-learning)。您必须以某种方式更正 "off-policyness";一种方法是重要性采样。当您以更一般的方式(对于任何可能的目标策略)介绍它时,您会在您提到的那个页面上获得算法,他们在那里将其称为 Off-policy n-step Sarsa。我想这个算法的一个特定实例,目标策略 pi 是关于 Q 的贪婪策略,可以直观地理解为 n 的 "correct" 版本-步骤 Q 学习。