不变奖励如何帮助训练?

How the invariant reward helps training?

我是机器学习的新手,我正在尝试使用 Q-learning 解决 MountainCar-v0。我现在可以解决问题了,但我还是一头雾水

根据MountainCar-v0's Wiki,即使汽车已经到达目的地,每一步的奖励仍然是-1。不变奖励如何帮助代理学习?如果每一步都给出相同的奖励,智能体如何判断这是好棋还是坏棋?

提前致谢!

目标是让汽车尽快到达目的地。如果代理人有一个快速的 运行,即使奖励仍然是负的,它仍然高于代理人在相对较慢的 运行 中获得的较低奖励。这种差异足以让代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地,因为它只有在达到该终端状态后才会停止接收负奖励。