Q-learning 的收敛标准

Criteria for convergence in Q-learning

我正在试验 Q 学习算法。我从不同的来源阅读并了解该算法,但是,似乎没有明确的数学支持的收敛标准。

大多数来源建议迭代几次(例如,N = 1000),而其他人则说当所有状态和动作对 (s, a) 被无限频繁地访问时实现收敛。但这里的问题是,有多少是无限频繁的。想要手工解决算法的人的最佳标准是什么?

如果有人能就此教育我,我将不胜感激。我也很感激任何与此相关的文章。

此致。

当学习曲线变得平坦并且不再增加时,任何 RL 算法都会收敛。但是,对于每种情况,都应考虑特定元素,因为它取决于您的算法和问题的规范。

理论上,已经证明 Q-Learning 会收敛到最优解,但是如何调整超参数并以确保收敛的方式通常并不明显。

请记住,Q 学习是一种古老的算法,有点过时了,它是学习 RL 的好方法,但还有更好的方法来解决现实生活中的问题。

Q-Learning 是强化学习的重大突破,正是因为它是第一个保证收敛到最优策略的算法。它最初是在 (Watkins, 1989) and its convergence proof was refined in (Watkins & Dayan, 1992).

中提出的

简而言之,必须满足两个条件才能保证收敛在极限,这意味着该策略将在任意长的时间段后变得任意接近最优策略。请注意,这些条件并未说明政策接近最优政策的速度

  1. 学习率必须接近零,但不能太快。形式上,这要求学习率之和必须发散,但它们的平方和必须收敛。具有这些属性的示例序列是 1/1, 1/2, 1/3, 1/4, ...
  2. 必须无限次访问每个状态-动作对。这有一个精确的数学定义:每个动作必须有一个非在每个州被政策选中的概率为零, π(s, a) > 0 对于所有 (s, a)。实际上,使用 ε-greedy 策略(其中 ε > 0)可确保满足此条件。