表示赛车示例的马尔可夫过程的状态 space 图

Represent state space graph for Markov process for car racing example

谁能帮我设计状态 space 伯克利 CS188 赛车示例马尔可夫决策过程图。

赛车示例

例如，我可以执行 100 个动作，我想运行值迭代以获得最佳策略来最大化我的奖励。

当我只有 3 个状态（冷、暖和过热）时，我不知道如何添加 "End" 状态并完成 MDP。

我正在考虑拥有 100 个冷状态和 100 个暖状态，例如，您可以从 Cool1 转到 Cool2、Warm2 或 Overheated 等。在此示例中，我接近 0 的状态值高于接近 100 的状态。

我是否遗漏了 MDP 中的某些内容？

应该只有 3 种可能的状态。 "Cool"和"warm"状态是循环的，"overheated"状态是吸收状态，因为离开状态的概率是0。

对于"cool" 和"warm" 状态，您可以有两个动作，慢速或快速，如问题陈述中所述。从图表中可以很容易地建立概率转移矩阵和步骤奖励。例如，P（快速，从凉爽到温暖）= 0.5，R（快速，从凉爽到温暖）= 2.

根据objective，您可以将其求解为有限范围或无限范围MDP。