从状态 s 采取行动 a 后,结果是概率性的还是确定性的?

Following action a from state s, is the outcome probablisitc or deterministic?

我很难理解马尔可夫决策过程的一个方面。

当我在状态s做动作a时,到达状态s+1是确定性的还是随机性的?

在大多数例子中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中过渡是随机的。即跟随动作 "Pub".

一般来说,在马尔可夫决策过程中,状态之间的转换可以是随机的。通常转移到另一个状态的概率用 P_a(s, s') 表示,其中 s 是当前状态,s' 下一个状态,a 执行的动作。

确定性案例是随机性案例的特例。如果 P_a(s, s') 对于给定的 s' 等于 1,对于其余状态等于 0,我们有一个确定性转换。