资格跟踪：On-line vs Off-line λ-return 算法

Eligibility Traces: On-line vs Off-line λ-return algorithm

我有一些问题想弄清楚为什么你需要在每个 horizon 前进的 λ-return 算法的 On-Line 版本上重新访问一个情节的所有时间步长书：
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

这里每个 horizon h 的权重向量 W1、W2、...、Wh 的所有序列都从 W0（上一集结尾的权重）开始。然而，它们似乎并不依赖于之前 horizon 中的 returns/weights，并且可以独立计算。在我看来，这只是为了澄清而解释的那样，你只能在剧集结束时计算最后的 horizon h=T。这与算法的 Off-line 版本所做的相同，实际更新规则是：

毫不奇怪，我在 19 状态随机游走示例中的 2 种算法得到了完全相同的结果：

书中提到 on-line 版本应该表现得更好一点，在这种情况下，它应该具有与 True Online TD(λ) 相同的结果。在实施后者时，它确实优于 off-line 版本，但我无法弄清楚简单而缓慢的 on-line 版本。

如有任何建议，我们将不胜感激。

谢谢

This appears to me explained like that just for clarification and you can calculate them only for the final horizon h=T at episode termination.

这不是真的。在线 λ-return 算法的全部要点在于它是在线的：它在剧集中进行更新。 This is crucial in the control setting, when actions selected are determined by the current value estimates.即使在预测设置中，为较早的 horizon 所做的权重更新也会产生影响。

这是因为最后horizon的最终权重向量始终用于更新目标的计算，截断的lambda return。所以w_1^1用于计算h=2的所有目标，w_2^2用于计算h=3的所有目标。由于目标是使用最新的权重向量计算的，因此它们通常更准确。

即使在预测设置中，在线 lambda return 算法也优于离线版本，因为它使用的目标更好。

资格跟踪：On-line vs Off-line λ-return 算法

Eligibility Traces: On-line vs Off-line λ-return algorithm

lambda

offline

return

reinforcement-learning

online-algorithm