模型和策略有什么区别 w.r.t 强化学习

What is the difference between model and policy w.r.t reinforcement learning

这两个定义似乎都说明它们是从状态到动作的映射,那有什么区别或者我错了吗?

这篇文章真的为你总结了:
What is Model-Based Reinforcement Learning?

To Model or Not to Model

“Model” is one of those terms that gets thrown around a lot in machine learning (and in scientific disciplines more generally), often with a relatively vague explanation of what we mean. Fortunately, in reinforcement learning, a model has a very specific meaning: it refers to the different dynamic states of an environment and how these states lead to a reward.

...The policy is whatever strategy you use to determine what action/direction to take based on your current state/location.

强化学习(或任何真正的学习)的总体结果是制定一项政策,即在特定领域出现时要采取的一系列行为或行动。

强化因素是你根据先前学习的结果不断重新运行学习过程,有效地应用新策略并从中学习改进政策的结果。

在基于模型的强化学习中,我们使用模型来表示环境或领域,这记录了事实或状态以及可能的操作。通过了解某些事实,政策可以在每个重复周期中专门针对这些状态和行动,测试和提高政策的准确性,就像它提高模型的质量一样。

另外一种看待两者的方式是,模型是先前学习的记录或结果,是环境的更新视图。该模型处理事实或假设的事实,基于过去的政策执行结果,模型保存过去执行的记录,这些数据可用于近似从特定状态采取某些行动的结果。政策是对行为的实际学习,而模型是支持和确认我们学习的事实。

同一篇文章中的这张图简化了强化学习中模型策略之间的关系: