奖励矩阵中的状态和奖励是什么?
What are the states and rewards in the reward matrix?
此代码:
R = ql.matrix([ [0,0,0,0,1,0],
[0,0,0,1,0,1],
[0,0,100,1,0,0],
[0,1,1,0,1,0],
[1,0,0,1,0,0],
[0,1,0,0,0,0] ])
来自:
R 定义为 "Reward matrix for each state" 。这个矩阵中的状态和奖励是什么?
# Reward for state 0
print('R[0,]:' , R[0,])
# Reward for state 0
print('R[1,]:' , R[1,])
打印:
R[0,]: [[0 0 0 0 1 0]]
R[1,]: [[0 0 0 1 0 1]]
是 [0 0 0 0 1 0]
state0 & [0 0 0 1 0 1]
state1 吗?
根据使用该示例的书,R
表示从当前状态 s
到下一个状态 s'
的过渡的奖励。
具体来说,R
与下图相关联:
矩阵R
中的每一行代表从A到F的一个字母,每一列代表一个来自A的字母A 到 F。 1
值表示图形的节点。即,R[0,]: [[0 0 0 0 1 0]]
意味着您可以从状态 s=A
进入下一个状态 s'=E
并获得奖励 1。同样,R[1,]: [[0 0 0 1 0 1]]
意味着您获得奖励 1,如果你从 B
到 F
或 D
。目标似乎是实现并保持在C
,获得最大的奖励。
此代码:
R = ql.matrix([ [0,0,0,0,1,0],
[0,0,0,1,0,1],
[0,0,100,1,0,0],
[0,1,1,0,1,0],
[1,0,0,1,0,0],
[0,1,0,0,0,0] ])
来自:
R 定义为 "Reward matrix for each state" 。这个矩阵中的状态和奖励是什么?
# Reward for state 0
print('R[0,]:' , R[0,])
# Reward for state 0
print('R[1,]:' , R[1,])
打印:
R[0,]: [[0 0 0 0 1 0]]
R[1,]: [[0 0 0 1 0 1]]
是 [0 0 0 0 1 0]
state0 & [0 0 0 1 0 1]
state1 吗?
根据使用该示例的书,R
表示从当前状态 s
到下一个状态 s'
的过渡的奖励。
具体来说,R
与下图相关联:
矩阵R
中的每一行代表从A到F的一个字母,每一列代表一个来自A的字母A 到 F。 1
值表示图形的节点。即,R[0,]: [[0 0 0 0 1 0]]
意味着您可以从状态 s=A
进入下一个状态 s'=E
并获得奖励 1。同样,R[1,]: [[0 0 0 1 0 1]]
意味着您获得奖励 1,如果你从 B
到 F
或 D
。目标似乎是实现并保持在C
,获得最大的奖励。