Q 学习代理的学习率

Learning rate of a Q learning agent

学习率如何影响收敛速度和收敛本身的问题。 如果学习率恒定,Q函数会收敛到最优on还是学习率必然衰减才能保证收敛?

它应该衰减,否则会有一些波动引起政策的小变化。

学习率必须衰减但不能太快。 收敛的条件如下(不好意思,没有latex):

  • sum(alpha(t), 1, inf) = inf

  • sum(alpha(t)^2, 1, inf) < inf

像 alpha = k/(k+t) 这样的东西可以很好地工作。

本文恰好讨论了这个主题:

http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf

学习率表示解决方案所采取的步长大小。

不应该太大一个数字,因为它可能会在最小值附近连续振荡并且不应该太小 number 否则将需要大量时间和迭代才能达到最小值。

建议学习率衰减的原因是,最初当我们在解决方案 space 中处于 完全随机点 时,我们需要大步迈向解决方案,稍后当我们接近它时,我们进行小跳跃,因此进行小改进以最终达到最小值。

类比可作:在高尔夫比赛中,当球离球洞较远时,球手击球很难尽可能靠近洞。后来当他到达标记区域时,他选择了不同的杆来获得准确的短击。

所以不是说他不选择短杆就进不了洞,他可能有两三次把球打到目标的前面。但如果他发挥最佳状态并使用适当的力量到达洞中,那将是最好的。衰减的学习率也是如此。