如何防止 lambda = 1 的 SARSA 中的资格跟踪因访问次数过多的状态-动作对而爆炸?

How to prevent the eligibility trace in SARSA with lambda = 1 from exploding for state-action pairs that are visited a huge number of times?

我在 Windy Grid World 中使用 lambda = 1 测试 SARSA,如果探索导致在达到目标之前多次访问相同的状态-动作对,则资格跟踪每次都会递增而不会衰减,因此它爆炸并导致一切溢出。 如何避免这种情况?

如果我没有正确理解你的问题,那么问题是给定状态的跟踪增加太多。在这种情况下,一个潜在的解决方案是使用 replacing traces 而不是经典的 incremental traces.

替换跟踪的想法是在每次访问状态时将跟踪重置为一个值(通常为 1)。下图说明了两种走线的主要区别:

您可以在 Sutton & Barto 的经典著作 强化学习:简介 中找到更多信息,特别是在 Section 7.8 中。