强化学习中的最优性是什么？

What is Optimality in Reinforcement Learning?

我知道定义：- 最优策略 (pi)* 满足 (pi)* >= (pi) 对所有 (pi) 最优策略保证存在，但可能不是唯一的。这两行是什么意思？

考虑一个目标是在视频游戏中获得分数的代理。在这里，当代理学习玩游戏时，我们为其策略分配一个分数（例如游戏分数）。最佳策略将是导致获得最多分数的策略。例如可能有几种方法可以收集游戏中的所有分数，所有这些都是最优策略。

此外，正如我刚才提到的，这些策略并不是唯一的，在某些情况下可能有无限种方法可以最大化分数。

希望对您有所帮助。