强化学习中的最优性是什么?

What is Optimality in Reinforcement Learning?

我知道定义:- 最优策略 (pi)* 满足 (pi)* >= (pi) 对所有 (pi) 最优策略保证存在,但可能不是唯一的。 这两行是什么意思?

考虑一个目标是在视频游戏中获得分数的代理。在这里,当代理学习玩游戏时,我们为其策略分配一个分数(例如游戏分数)。最佳策略将是导致获得最多分数的策略。例如可能有几种方法可以收集游戏中的所有分数,所有这些都是最优策略。

此外,正如我刚才提到的,这些策略并不是唯一的,在某些情况下可能有无限种方法可以最大化分数。

希望对您有所帮助。