了解 mdptoolbox 森林示例的参数值

Question

我正在尝试了解如何使用 mdptoolbox，但有几个问题。

下面语句中的20是什么意思？

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

我理解这里的10表示可能的状态数。 20 在这里是什么意思？它代表每个状态的动作总数吗？我想将 MDP 限制为每个状态 2 个动作。我该怎么做？

上面返回的P的形状是(2, 10, 10)。 2 在这里代表什么？无论我对总状态和动作使用什么值，它总是 2.

Answer 1

您运行的代码是正确的，但您使用的是工具箱中的示例。

请仔细阅读documentation。

在下面的代码中：

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

第二个参数不是 MDP 的 action-argument。 Its documentation对第二个参数的解释如下：

The reward when the forest is in its oldest state and action ‘Wait’ is performed. Default: 4.

在您的例子中，当森林处于最旧状态并且执行操作 Wait 时，奖励的值被传递为 20。

在此示例中，森林由两个操作管理：‘Wait’ 和 ‘Cut’。请参阅此 documentation 了解更多详情。由于可能有 2 个动作，因此此函数返回的转移概率矩阵 P 的第一维大小也为 2。您不需要手动将操作 space 维度限制为 2.

要了解此工具箱的使用，您还应该通过 this link。

Understanding the argument values for mdptoolbox forest example