网格世界中的终端状态是什么?

What is terminal state in gridworld?

我正在学习马尔可夫决策过程。 我不知道在哪里标记终端状态吗?

在4x3的方格世界里,我把我认为正确(我可能错了)的终端状态标记为T。 Pic

我看到一个指令标记终端状态如下。

terminals=[(3, 2), (3, 1)]

谁能解释一下它是如何工作的?

在给定的 grid-world 中,您从“开始”开始,即 (0,0)。然后你从那个点四处走动。如果您到达“结束 +1”{(3,2)},则奖励为 +1,游戏结束。同样,如果您到达“end -1”{(3,1)},则奖励为 -1,游戏结束。但是,当你四处移动时,你不能移动到 {(1,1)} 作为它的无效状态。此外,如果您达到 {(2,0) 和 (2,1)} 处的任何终端状态“T”,则游戏以零奖励结束。