具有神经网络近似 Q 函数的奖励函数

Reward function with a neural network approximated Q-function

在 Q-learning 中，如果我的 Q-function 由普通的前馈神经网络近似，我应该如何表示我的 Reward 函数？

我是否应该将其表示为目标的离散值 "near"、"very near" 等。我所关心的是，只要我已经转向神经网络近似Q 函数 Q(s, a, θ) 并且不再使用查找 table，我是否仍需要构建奖励 table？

没有 "reward table" 你应该定义 "reward signal" 这样的东西，它是在给定时间戳的给定代理世界状态下产生的。这个奖励应该是一个标量（数字）。一般来说，您可以考虑更复杂的奖励，但在 Q-learning 的典型设置中，奖励只是一个数字，因为算法的目标是找到一个策略，使其最大化预期 summed[=16= 】打折奖励。显然，您需要一个可以加法、乘法和最终比较的对象，而且这些对象实际上只是数字（或者可以直接转换为数字）。好的，话虽如此，对于您的特定情况，如果您知道到目标的距离，您可以给予与距离成反比的奖励，它甚至可以是 -distance，或 1/distance（因为这个将保证更好的缩放。

具有神经网络近似 Q 函数的奖励函数

Reward function with a neural network approximated Q-function

machine-learning

reinforcement-learning

q-learning

deep-learning

tensorflow