不变奖励如何帮助训练？

How the invariant reward helps training?

我是机器学习的新手，我正在尝试使用 Q-learning 解决 MountainCar-v0。我现在可以解决问题了，但我还是一头雾水

根据MountainCar-v0's Wiki，即使汽车已经到达目的地，每一步的奖励仍然是-1。不变奖励如何帮助代理学习？如果每一步都给出相同的奖励，智能体如何判断这是好棋还是坏棋？

提前致谢！

目标是让汽车尽快到达目的地。如果代理人有一个快速的运行，即使奖励仍然是负的，它仍然高于代理人在相对较慢的运行中获得的较低奖励。这种差异足以让代理学习。此环境的奖励系统鼓励代理尽快到达其目标目的地，因为它只有在达到该终端状态后才会停止接收负奖励。