了解 mdptoolbox 森林示例的参数值

Understanding the argument values for mdptoolbox forest example

我正在尝试了解如何使用 mdptoolbox,但有几个问题。

下面语句中的20是什么意思?

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

我理解这里的10表示可能的状态数。 20 在这里是什么意思?它代表每个状态的动作总数吗?我想将 MDP 限制为每个状态 2 个动作。我该怎么做?

上面返回的P的形状是(2, 10, 10)2 在这里代表什么?无论我对总状态和动作使用什么值,它总是 2.

您 运行 的代码是正确的,但您使用的是工具箱中的示例。

请仔细阅读documentation

在下面的代码中:

P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)

第二个参数不是 MDP 的 action-argument。 Its documentation对第二个参数的解释如下:

The reward when the forest is in its oldest state and action ‘Wait’ is performed. Default: 4.

在您的例子中,当森林处于最旧状态并且执行操作 Wait 时,奖励的值被传递为 20

在此示例中,森林由两个操作管理:‘Wait’‘Cut’。请参阅此 documentation 了解更多详情。由于可能有 2 个动作,因此此函数返回的转移概率矩阵 P 的第一维大小也为 2。您不需要手动将操作 space 维度限制为 2.

要了解此工具箱的使用,您还应该通过 this link