如何防止 lambda = 1 的 SARSA 中的资格跟踪因访问次数过多的状态-动作对而爆炸？

How to prevent the eligibility trace in SARSA with lambda = 1 from exploding for state-action pairs that are visited a huge number of times?

我在 Windy Grid World 中使用 lambda = 1 测试 SARSA，如果探索导致在达到目标之前多次访问相同的状态-动作对，则资格跟踪每次都会递增而不会衰减，因此它爆炸并导致一切溢出。如何避免这种情况？

如果我没有正确理解你的问题，那么问题是给定状态的跟踪增加太多。在这种情况下，一个潜在的解决方案是使用 replacing traces 而不是经典的 incremental traces.

替换跟踪的想法是在每次访问状态时将跟踪重置为一个值（通常为 1）。下图说明了两种走线的主要区别：

您可以在 Sutton & Barto 的经典著作 强化学习：简介 中找到更多信息，特别是在 Section 7.8 中。