使用梯度下降实现 SARSA
Implementing SARSA using Gradient Discent
我已经使用 table 查找成功地实现了 SARSA 算法(一步和使用资格跟踪)。本质上,我有一个 q 值矩阵,其中每一行对应一个状态,每一列对应一个动作。
类似于:
[Q(s1,a1), Q(s1,a2), Q(s1,a3), Q(s1,a4)]
[Q(s2,a1), (Q(s2,a2), Q(s2a3), Q(s2, a2]
.
.
.
[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]
在每个时间步,从矩阵中选取一行,并根据策略选取一个动作并根据 SARSA 规则更新。
我现在正在尝试使用梯度下降将其实现为神经网络。
我的第一个假设是创建一个双层网络,输入层具有与状态一样多的输入神经元,而输出层具有与动作一样多的输出神经元。每个输入都将完全连接到每个输出。 (所以,实际上,它看起来像上面的矩阵)
我的输入向量将是一个 1xn 行向量,其中 n 是输入神经元的数量。输入向量中的所有值都将为 0,除了对应于当前状态的索引为 1。即:
[0 0 0 1 0 0]
将是状态 4 中代理的输入向量。
所以,这个过程是这样的:
[0 0 0 1 0 0] X [ 4 7 9 3]
[ 5 3 2 9]
[ 3 5 6 9]
[ 9 3 2 6]
[ 2 5 7 8]
[ 8 2 3 5]
我在这里创建了一个随机样本权重矩阵。
结果将是:
[9 3 2 6]
这意味着如果选择了贪心策略,则应选择动作 1,并且第四个输入神经元和第一个输出神经元之间的连接应通过以下方式变得更强:
dw = dw_old + learning_rate*(reward + discount*network_output - dw_old)
(取自 SARSA 算法的方程)
但是 - 这个实现并不能说服我。根据我的阅读,网络权重应该用于计算状态-动作对的 Q 值,但我不确定它们是否应该 代表 这样的值。 (特别是因为我通常看到权重值只包含在 0 和 1 之间。)
有什么建议吗?
总结:您当前的方法是正确的,只是您不应将输出值限制在 0 到 1 之间。
This page 有很好的解释,这里总结一下。它没有专门讨论 SARSA,但我认为它所说的一切都应该翻译。
结果向量中的值确实应该代表您的神经网络对与每个状态关联的 Q 值的估计。出于这个原因,通常建议您不要将允许值的范围限制在零和一之间(因此只需将乘以连接权重的值相加,而不是使用某种 sigmoid 激活函数)。
至于如何表示状态,一种选择是根据代理拥有或理论上可能拥有的传感器来表示它们。例如,在下面的示例中,机器人有三个 "feeler" 个传感器,每个传感器都可以处于三种情况之一。它们一起为机器人提供了它所处状态的所有信息。
但是,如果你想给你的智能体完美的信息,你可以想象它有一个传感器可以准确地告诉它它所处的状态,如 this page 末尾所示。这将完全按照您的网络当前设置的方式工作,一个输入代表每个状态。
我已经使用 table 查找成功地实现了 SARSA 算法(一步和使用资格跟踪)。本质上,我有一个 q 值矩阵,其中每一行对应一个状态,每一列对应一个动作。
类似于:
[Q(s1,a1), Q(s1,a2), Q(s1,a3), Q(s1,a4)]
[Q(s2,a1), (Q(s2,a2), Q(s2a3), Q(s2, a2]
.
.
.
[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]
在每个时间步,从矩阵中选取一行,并根据策略选取一个动作并根据 SARSA 规则更新。
我现在正在尝试使用梯度下降将其实现为神经网络。
我的第一个假设是创建一个双层网络,输入层具有与状态一样多的输入神经元,而输出层具有与动作一样多的输出神经元。每个输入都将完全连接到每个输出。 (所以,实际上,它看起来像上面的矩阵)
我的输入向量将是一个 1xn 行向量,其中 n 是输入神经元的数量。输入向量中的所有值都将为 0,除了对应于当前状态的索引为 1。即:
[0 0 0 1 0 0]
将是状态 4 中代理的输入向量。
所以,这个过程是这样的:
[0 0 0 1 0 0] X [ 4 7 9 3]
[ 5 3 2 9]
[ 3 5 6 9]
[ 9 3 2 6]
[ 2 5 7 8]
[ 8 2 3 5]
我在这里创建了一个随机样本权重矩阵。
结果将是:
[9 3 2 6]
这意味着如果选择了贪心策略,则应选择动作 1,并且第四个输入神经元和第一个输出神经元之间的连接应通过以下方式变得更强:
dw = dw_old + learning_rate*(reward + discount*network_output - dw_old)
(取自 SARSA 算法的方程)
但是 - 这个实现并不能说服我。根据我的阅读,网络权重应该用于计算状态-动作对的 Q 值,但我不确定它们是否应该 代表 这样的值。 (特别是因为我通常看到权重值只包含在 0 和 1 之间。)
有什么建议吗?
总结:您当前的方法是正确的,只是您不应将输出值限制在 0 到 1 之间。
This page 有很好的解释,这里总结一下。它没有专门讨论 SARSA,但我认为它所说的一切都应该翻译。
结果向量中的值确实应该代表您的神经网络对与每个状态关联的 Q 值的估计。出于这个原因,通常建议您不要将允许值的范围限制在零和一之间(因此只需将乘以连接权重的值相加,而不是使用某种 sigmoid 激活函数)。
至于如何表示状态,一种选择是根据代理拥有或理论上可能拥有的传感器来表示它们。例如,在下面的示例中,机器人有三个 "feeler" 个传感器,每个传感器都可以处于三种情况之一。它们一起为机器人提供了它所处状态的所有信息。
但是,如果你想给你的智能体完美的信息,你可以想象它有一个传感器可以准确地告诉它它所处的状态,如 this page 末尾所示。这将完全按照您的网络当前设置的方式工作,一个输入代表每个状态。