表示赛车示例的马尔可夫过程的状态 space 图

Represent state space graph for Markov process for car racing example

谁能帮我设计状态 space 伯克利 CS188 赛车示例马尔可夫决策过程图。

赛车示例

例如,我可以执行 100 个动作,我想 运行 值迭代以获得最佳策略来最大化我的奖励。

当我只有 3 个状态(冷、暖和过热)时,我不知道如何添加 "End" 状态并完成 MDP。

我正在考虑拥有 100 个冷状态和 100 个暖状态,例如,您可以从 Cool1 转到 Cool2、Warm2 或 Overheated 等。 在此示例中,我接近 0 的状态值高于接近 100 的状态。

我是否遗漏了 MDP 中的某些内容?

应该只有 3 种可能的状态。 "Cool"和"warm"状态是循环的,"overheated"状态是吸收状态,因为离开状态的概率是0。

对于"cool" 和"warm" 状态,您可以有两个动作,慢速或快速,如问题陈述中所述。从图表中可以很容易地建立概率转移矩阵和步骤奖励。例如,P(快速,从凉爽到温暖)= 0.5,R(快速,从凉爽到温暖)= 2.

根据objective,您可以将其求解为有限范围或无限范围MDP。