David Silver 第 2 讲中对奖励的困惑

Confused about Rewards in David Silver Lecture 2

reinforcement-learning

在观看 David Silver 在 youtube 上的强化学习课程（和幻灯片：Lecture 2 MDP）时，我发现“奖励”和“价值函数”真的很混乱。

我试图理解幻灯片（P11）上标记的“给予奖励”，但我无法弄清楚为什么会这样。比如，“Class 1: R = -2”但是“Pub: R = +1”

为什么 Class 的负奖励 而 Pub 的正奖励？为什么 不同的值 ？
如何使用折扣系数计算奖励？ (P17 和 P18)

我认为对强化学习缺乏直觉是我遇到这种问题的主要原因...

所以，如果有人能给我一点提示，我将不胜感激。

您通常设置奖励和折扣，以便使用 RL 驱动代理解决任务。在学生示例中，目标是通过考试。学生可以花时间参加 class、睡觉、上 Facebook 或在酒吧。参加 class 是一件 "boring"，所以学生看不到这样做的直接好处。因此负奖励。相反，去酒吧很有趣，而且会带来积极的回报。然而，只有参加所有 3 classes 学生才能通过考试并获得最终的大奖。现在的问题是：学生对即时奖励和未来奖励的重视程度分别是多少？折扣因子告诉你：折扣越小越看重即时奖励，因为未来的奖励只是"fade"长运行。如果我们使用小额折扣，学生可能更愿意总是去酒吧或睡觉。折扣接近 0，一步之后所有奖励也接近 0，因此在每个状态下，学生将尝试最大化即时奖励，因为在那之后 "nothing else matter".

相反，高折扣（最大 1）值 long-term 奖励更多：在这种情况下，最佳学生将参加所有 class 课程并通过考试。

选择折扣可能会很棘手，尤其是在没有终止状态的情况下（在本例中 "sleep" 是终止状态），因为折扣为 1 时，代理可能会忽略用于达到最高奖励。例如，如果 classes 会给出 -1 而不是 -2 的奖励，因为代理将永远在某个时间点在 "class" 和 "pub" 之间交替花费时间通过考试，因为折扣 1 奖励永远不会消失，所以即使在 10 年后，学生仍然会因为通过考试而获得 +10。

还可以考虑必须到达目标位置的虚拟代理。使用折扣 1，agent 不会学会以最少的步数到达它：只要到达它，对他来说都是一样的。

除此之外，折扣1还有一个数值问题。由于目标是最大化折扣奖励的累积和，如果奖励不打折（并且视野是无限的），总和将不会收敛。

Q1)首先你不要忘记环境给予的奖励。 agent采取的动作对环境的rewards没有影响，当然会影响followed trajectory获得的reward。

在示例中，这些 +1 和 -2 只是有趣的示例 :) "As a student" 你在 class 期间感到无聊，所以它的奖励是 -2，而你在其中玩得开心酒吧，所以奖励是+1。不要对这些数字背后的原因感到困惑，它们是环境给定的。

Q2)我们对"Example: State-Value Function for Student MRP (2)"中值为4.1的状态进行计算：

v(s) = (-2) + 0.9 * [(0.4 * 1.9) + (0.6 * 10)] = (-2) + 6.084 =~ 4.1

这里 David 使用 MRP 的 Bellman 方程。您可以在同一张幻灯片上找到它。

David Silver 第 2 讲中对奖励的困惑

Confused about Rewards in David Silver Lecture 2

reinforcement-learning