为什么 Q-learning 的学习率对于随机环境很重要?

Why the learning rate for Q-learning is important for stochastic environments?

如维基百科所述https://en.wikipedia.org/wiki/Q-learning#Learning_Rate, 对于随机问题,使用学习率对于收敛很重要。虽然我在没有任何数学证明的情况下试图找到原因背后的“直觉”,但我找不到。

具体来说,我很难理解为什么缓慢更新 q 值有利于随机环境。谁能解释一下直觉或动机?

在你足够接近收敛后,如果学习率太高,随机环境将无法收敛。

把它想象成滚入漏斗的球。球滚动的速度就像学习率。因为它是随机的,球永远不会直接进入洞中,它总是 只是 错过了。现在,如果学习率太高,那么只是缺少是灾难性的。它会直接从洞口射过去。

这就是为什么要稳步降低学习率的原因。就像球由于摩擦而失去速度,无论从哪个方向来,都会让它落入洞中。