表示赛车示例的马尔可夫过程的状态 space 图
Represent state space graph for Markov process for car racing example
谁能帮我设计状态 space 伯克利 CS188 赛车示例马尔可夫决策过程图。
赛车示例
例如,我可以执行 100 个动作,我想 运行 值迭代以获得最佳策略来最大化我的奖励。
当我只有 3 个状态(冷、暖和过热)时,我不知道如何添加 "End" 状态并完成 MDP。
我正在考虑拥有 100 个冷状态和 100 个暖状态,例如,您可以从 Cool1 转到 Cool2、Warm2 或 Overheated 等。
在此示例中,我接近 0 的状态值高于接近 100 的状态。
我是否遗漏了 MDP 中的某些内容?
应该只有 3 种可能的状态。 "Cool"和"warm"状态是循环的,"overheated"状态是吸收状态,因为离开状态的概率是0。
对于"cool" 和"warm" 状态,您可以有两个动作,慢速或快速,如问题陈述中所述。从图表中可以很容易地建立概率转移矩阵和步骤奖励。例如,P(快速,从凉爽到温暖)= 0.5,R(快速,从凉爽到温暖)= 2.
根据objective,您可以将其求解为有限范围或无限范围MDP。
谁能帮我设计状态 space 伯克利 CS188 赛车示例马尔可夫决策过程图。
赛车示例
例如,我可以执行 100 个动作,我想 运行 值迭代以获得最佳策略来最大化我的奖励。
当我只有 3 个状态(冷、暖和过热)时,我不知道如何添加 "End" 状态并完成 MDP。
我正在考虑拥有 100 个冷状态和 100 个暖状态,例如,您可以从 Cool1 转到 Cool2、Warm2 或 Overheated 等。 在此示例中,我接近 0 的状态值高于接近 100 的状态。
我是否遗漏了 MDP 中的某些内容?
应该只有 3 种可能的状态。 "Cool"和"warm"状态是循环的,"overheated"状态是吸收状态,因为离开状态的概率是0。
对于"cool" 和"warm" 状态,您可以有两个动作,慢速或快速,如问题陈述中所述。从图表中可以很容易地建立概率转移矩阵和步骤奖励。例如,P(快速,从凉爽到温暖)= 0.5,R(快速,从凉爽到温暖)= 2.
根据objective,您可以将其求解为有限范围或无限范围MDP。