奖励矩阵中的状态和奖励是什么?

What are the states and rewards in the reward matrix?

此代码:

R = ql.matrix([ [0,0,0,0,1,0],
        [0,0,0,1,0,1],
        [0,0,100,1,0,0],
        [0,1,1,0,1,0],
        [1,0,0,1,0,0],
        [0,1,0,0,0,0] ])

来自:

https://github.com/PacktPublishing/Artificial-Intelligence-By-Example/blob/47bed1a88db2c9577c492f950069f58353375cfe/Chapter01/MDP.py

R 定义为 "Reward matrix for each state" 。这个矩阵中的状态和奖励是什么?

# Reward for state 0
print('R[0,]:' , R[0,])

# Reward for state 0
print('R[1,]:' , R[1,])

打印:

R[0,]: [[0 0 0 0 1 0]]
R[1,]: [[0 0 0 1 0 1]]

[0 0 0 0 1 0] state0 & [0 0 0 1 0 1] state1 吗?

根据使用该示例的书,R 表示从当前状态 s 到下一个状态 s' 的过渡的奖励。

具体来说,R 与下图相关联:

矩阵R中的每一行代表从AF的一个字母,每一列代表一个来自A的字母AF1 值表示图形的节点。即,R[0,]: [[0 0 0 0 1 0]] 意味着您可以从状态 s=A 进入下一个状态 s'=E 并获得奖励 1。同样,R[1,]: [[0 0 0 1 0 1]] 意味着您获得奖励 1,如果你从 BFD。目标似乎是实现并保持在C,获得最大的奖励。