Q-Learning 算法会过度训练吗?

Can Q-Learning algorithm become overtrained?

已经证明Q-Learning算法收敛于唯一的最优策略的Q。那么得出 Q-Learning 算法不会过度训练的结论是否正确?

在您假设您可以无限访问整个数据(Q-learning 假设)的世界中没有过度训练的概念。如果您不使用基于状态 space 的 "pure" Q 学习,而是使用一些逼近器,例如深度 Q 学习,这可能会严重过度训练。缺少此属性来自不切实际的假设,这些假设通常无法满足(除非您的问题非常simple/small)。