从状态 s 采取行动 a 后,结果是概率性的还是确定性的?
Following action a from state s, is the outcome probablisitc or deterministic?
我很难理解马尔可夫决策过程的一个方面。
当我在状态s做动作a时,到达状态s+1是确定性的还是随机性的?
在大多数例子中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中过渡是随机的。即跟随动作 "Pub".
一般来说,在马尔可夫决策过程中,状态之间的转换可以是随机的。通常转移到另一个状态的概率用 P_a(s, s')
表示,其中 s
是当前状态,s'
下一个状态,a
执行的动作。
确定性案例是随机性案例的特例。如果 P_a(s, s') 对于给定的 s'
等于 1,对于其余状态等于 0,我们有一个确定性转换。
我很难理解马尔可夫决策过程的一个方面。
当我在状态s做动作a时,到达状态s+1是确定性的还是随机性的?
在大多数例子中,它似乎是确定性的。然而,我在下图中发现了一个示例(David Silvers 关于 RL 的讲座),其中过渡是随机的。即跟随动作 "Pub".
一般来说,在马尔可夫决策过程中,状态之间的转换可以是随机的。通常转移到另一个状态的概率用 P_a(s, s')
表示,其中 s
是当前状态,s'
下一个状态,a
执行的动作。
确定性案例是随机性案例的特例。如果 P_a(s, s') 对于给定的 s'
等于 1,对于其余状态等于 0,我们有一个确定性转换。