Q-Learning 算法会过度训练吗？

Can Q-Learning algorithm become overtrained?

machine-learning
reinforcement-learning
q-learning

已经证明Q-Learning算法收敛于唯一的最优策略的Q。那么得出 Q-Learning 算法不会过度训练的结论是否正确？

在您假设您可以无限访问整个数据（Q-learning 假设）的世界中没有过度训练的概念。如果您不使用基于状态 space 的 "pure" Q 学习，而是使用一些逼近器，例如深度 Q 学习，这可能会严重过度训练。缺少此属性来自不切实际的假设，这些假设通常无法满足（除非您的问题非常simple/small）。

Q-Learning 算法会过度训练吗？

Can Q-Learning algorithm become overtrained?

machine-learning

reinforcement-learning

q-learning