资格跟踪:On-line vs Off-line λ-return 算法

Eligibility Traces: On-line vs Off-line λ-return algorithm

我有一些问题想弄清楚为什么你需要在每个 horizon 前进的 λ-return 算法的 On-Line 版本上重新访问一个情节的所有时间步长书:
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

这里每个 horizon h 的权重向量 W1、W2、...、Wh 的所有序列都从 W0(上一集结尾的权重)开始。然而,它们似乎并不依赖于之前 horizon 中的 returns/weights,并且可以独立计算。在我看来,这只是为了澄清而解释的那样,你只能在剧集结束时计算最后的 horizon h=T。这与算法的 Off-line 版本所做的相同,实际更新规则是:

毫不奇怪,我在 19 状态随机游走示例中的 2 种算法得到了完全相同的结果:

书中提到 on-line 版本应该表现得更好一点,在这种情况下,它应该具有与 True Online TD(λ) 相同的结果。在实施后者时,它确实优于 off-line 版本,但我无法弄清楚简单而缓慢的 on-line 版本。

如有任何建议,我们将不胜感激。

谢谢

This appears to me explained like that just for clarification and you can calculate them only for the final horizon h=T at episode termination.

这不是真的。在线 λ-return 算法的全部要点在于它是在线的:它在剧集中进行更新。 This is crucial in the control setting, when actions selected are determined by the current value estimates.即使在预测设置中,为较早的 horizon 所做的权重更新也会产生影响。

这是因为最后horizon的最终权重向量始终用于更新目标的计算,截断的lambda return。所以w_1^1用于计算h=2的所有目标,w_2^2用于计算h=3的所有目标。由于目标是使用最新的权重向量计算的,因此它们通常更准确。

即使在预测设置中,在线 lambda return 算法也优于离线版本,因为它使用的目标更好。