为什么 Q-learning 的学习率对于随机环境很重要？

Why the learning rate for Q-learning is important for stochastic environments?

如维基百科所述https://en.wikipedia.org/wiki/Q-learning#Learning_Rate，对于随机问题，使用学习率对于收敛很重要。虽然我在没有任何数学证明的情况下试图找到原因背后的“直觉”，但我找不到。

具体来说，我很难理解为什么缓慢更新 q 值有利于随机环境。谁能解释一下直觉或动机？

在你足够接近收敛后，如果学习率太高，随机环境将无法收敛。

把它想象成滚入漏斗的球。球滚动的速度就像学习率。因为它是随机的，球永远不会直接进入洞中，它总是只是错过了。现在，如果学习率太高，那么只是缺少是灾难性的。它会直接从洞口射过去。

这就是为什么要稳步降低学习率的原因。就像球由于摩擦而失去速度，无论从哪个方向来，都会让它落入洞中。