强化学习给定有限状态和动作的策略总数
Reinforcement learning Total number of policies given finite states and actions
我是强化学习的新手。所以这似乎是一个微不足道的问题
假设 3 个状态 {x,y,z} 和 2 个动作 {a,b}
为什么总数是policies/search space 2^3 = 8.
考虑这些情况,
x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)
这只会给我6个保单?然后由于动作 (b,a) 考虑 * 2 它将给我 12 个策略。
我错过了什么吗?
假设确定性策略(您的情况),策略确定在每个状态下应执行的操作。在您的例子中,您有 3 个状态 (x,y,z)
和两个可能的操作 (a,b)
。那么,这些是您可能的策略:
+---+---+---+
| x | y | z |
+---+---+---+
| a | a | a |
| a | a | b |
| a | b | a |
| a | b | b |
| b | a | a |
| b | a | b |
| b | b | a |
| b | b | b |
+---+---+---+
我希望现在更清楚为什么 policies/search space 的总数是 2^3 = 8。
我是强化学习的新手。所以这似乎是一个微不足道的问题
假设 3 个状态 {x,y,z} 和 2 个动作 {a,b}
为什么总数是policies/search space 2^3 = 8.
考虑这些情况,
x - y - z (actions a,b)
x - z - y (actions a,b)
y - x - z (actions a,b)
y - z - x (actions a,b)
z - x - y (actions a,b)
z - y - x (actions a,b)
这只会给我6个保单?然后由于动作 (b,a) 考虑 * 2 它将给我 12 个策略。
我错过了什么吗?
假设确定性策略(您的情况),策略确定在每个状态下应执行的操作。在您的例子中,您有 3 个状态 (x,y,z)
和两个可能的操作 (a,b)
。那么,这些是您可能的策略:
+---+---+---+
| x | y | z |
+---+---+---+
| a | a | a |
| a | a | b |
| a | b | a |
| a | b | b |
| b | a | a |
| b | a | b |
| b | b | a |
| b | b | b |
+---+---+---+
我希望现在更清楚为什么 policies/search space 的总数是 2^3 = 8。