这个关闭政策的例子是否正确?

Is this example of off policy correct?

我正在阅读 Sutton 和 Barto 并想确保我清楚。

对于 Off Policy 学习,我们是否可以将处于特定地形(比如在沙滩上)的机器人视为目标策略,而使用机器人在雪地中行走的策略作为行为策略?我们正在使用我们在雪地上行走的经验来近似在沙滩上行走的最优策略?

您的示例有效,但我认为它有点受限。在离策略方法中,行为策略只是一个用于探索状态动作 space 的函数,而另一个函数(如您所说的目标)正在优化。这意味着只要行为函数是在与目标策略相同的域上定义的,它是随机过程还是先前学习的结果(例如,你的机器人在沙子上行走)并不重要。它探索了状态-动作space,因此符合定义。做的好不好另当别论