了解 mdptoolbox 森林示例的参数值
Understanding the argument values for mdptoolbox forest example
我正在尝试了解如何使用 mdptoolbox,但有几个问题。
下面语句中的20
是什么意思?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我理解这里的10
表示可能的状态数。 20
在这里是什么意思?它代表每个状态的动作总数吗?我想将 MDP 限制为每个状态 2 个动作。我该怎么做?
上面返回的P
的形状是(2, 10, 10)
。 2
在这里代表什么?无论我对总状态和动作使用什么值,它总是 2
.
您 运行 的代码是正确的,但您使用的是工具箱中的示例。
请仔细阅读documentation。
在下面的代码中:
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
第二个参数不是 MDP 的 action-argument。 Its documentation对第二个参数的解释如下:
The reward when the forest is in its oldest state and action ‘Wait’ is performed. Default: 4.
在您的例子中,当森林处于最旧状态并且执行操作 Wait
时,奖励的值被传递为 20
。
在此示例中,森林由两个操作管理:‘Wait’
和 ‘Cut’
。请参阅此 documentation 了解更多详情。由于可能有 2 个动作,因此此函数返回的转移概率矩阵 P
的第一维大小也为 2
。您不需要手动将操作 space 维度限制为 2
.
要了解此工具箱的使用,您还应该通过 this link。
我正在尝试了解如何使用 mdptoolbox,但有几个问题。
下面语句中的20
是什么意思?
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
我理解这里的10
表示可能的状态数。 20
在这里是什么意思?它代表每个状态的动作总数吗?我想将 MDP 限制为每个状态 2 个动作。我该怎么做?
上面返回的P
的形状是(2, 10, 10)
。 2
在这里代表什么?无论我对总状态和动作使用什么值,它总是 2
.
您 运行 的代码是正确的,但您使用的是工具箱中的示例。
请仔细阅读documentation。
在下面的代码中:
P, R = mdptoolbox.example.forest(10, 20, is_sparse=False)
第二个参数不是 MDP 的 action-argument。 Its documentation对第二个参数的解释如下:
The reward when the forest is in its oldest state and action ‘Wait’ is performed. Default: 4.
在您的例子中,当森林处于最旧状态并且执行操作 Wait
时,奖励的值被传递为 20
。
在此示例中,森林由两个操作管理:‘Wait’
和 ‘Cut’
。请参阅此 documentation 了解更多详情。由于可能有 2 个动作,因此此函数返回的转移概率矩阵 P
的第一维大小也为 2
。您不需要手动将操作 space 维度限制为 2
.
要了解此工具箱的使用,您还应该通过 this link。