David Silver 第 2 讲中对奖励的困惑
Confused about Rewards in David Silver Lecture 2
在观看 David Silver 在 youtube 上的强化学习课程(和幻灯片:Lecture 2 MDP)时,我发现“奖励”和“价值函数”真的很混乱。
我试图理解幻灯片(P11)上标记的“给予奖励”,但我无法弄清楚为什么会这样。比如,“Class 1: R = -2”但是“Pub: R = +1”
为什么 Class 的负奖励 而 Pub 的正奖励?为什么 不同的值 ?
如何使用折扣系数计算奖励? (P17 和 P18)
我认为对强化学习缺乏直觉是我遇到这种问题的主要原因...
所以,如果有人能给我一点提示,我将不胜感激。
您通常设置奖励和折扣,以便使用 RL 驱动代理解决任务。
在学生示例中,目标是通过考试。学生可以花时间参加 class、睡觉、上 Facebook 或在酒吧。参加 class 是一件 "boring",所以学生看不到这样做的直接好处。因此负奖励。相反,去酒吧很有趣,而且会带来积极的回报。然而,只有参加所有 3 classes 学生才能通过考试并获得最终的大奖。
现在的问题是:学生对即时奖励和未来奖励的重视程度分别是多少?折扣因子告诉你:折扣越小越看重即时奖励,因为未来的奖励只是"fade"长运行。如果我们使用小额折扣,学生可能更愿意总是去酒吧或睡觉。折扣接近 0,一步之后所有奖励也接近 0,因此在每个状态下,学生将尝试最大化即时奖励,因为在那之后 "nothing else matter".
相反,高折扣(最大 1)值 long-term 奖励更多:在这种情况下,最佳学生将参加所有 class 课程并通过考试。
选择折扣可能会很棘手,尤其是在没有终止状态的情况下(在本例中 "sleep" 是终止状态),因为折扣为 1 时,代理可能会忽略用于达到最高奖励。例如,如果 classes 会给出 -1 而不是 -2 的奖励,因为代理将永远在某个时间点在 "class" 和 "pub" 之间交替花费时间通过考试,因为折扣 1 奖励永远不会消失,所以即使在 10 年后,学生仍然会因为通过考试而获得 +10。
还可以考虑必须到达目标位置的虚拟代理。使用折扣 1,agent 不会学会以最少的步数到达它:只要到达它,对他来说都是一样的。
除此之外,折扣1还有一个数值问题。由于目标是最大化折扣奖励的累积和,如果奖励不打折(并且视野是无限的),总和将不会收敛。
Q1)首先你不要忘记环境给予的奖励。 agent采取的动作对环境的rewards没有影响,当然会影响followed trajectory获得的reward。
在示例中,这些 +1 和 -2 只是有趣的示例 :) "As a student" 你在 class 期间感到无聊,所以它的奖励是 -2,而你在其中玩得开心酒吧,所以奖励是+1。不要对这些数字背后的原因感到困惑,它们是环境给定的。
Q2)我们对"Example: State-Value Function for Student MRP (2)"中值为4.1的状态进行计算:
v(s) = (-2) + 0.9 * [(0.4 * 1.9) + (0.6 * 10)] = (-2) + 6.084 =~ 4.1
这里 David 使用 MRP 的 Bellman 方程。您可以在同一张幻灯片上找到它。
在观看 David Silver 在 youtube 上的强化学习课程(和幻灯片:Lecture 2 MDP)时,我发现“奖励”和“价值函数”真的很混乱。
我试图理解幻灯片(P11)上标记的“给予奖励”,但我无法弄清楚为什么会这样。比如,“Class 1: R = -2”但是“Pub: R = +1”
为什么 Class 的负奖励 而 Pub 的正奖励?为什么 不同的值 ?
如何使用折扣系数计算奖励? (P17 和 P18)
我认为对强化学习缺乏直觉是我遇到这种问题的主要原因...
所以,如果有人能给我一点提示,我将不胜感激。
您通常设置奖励和折扣,以便使用 RL 驱动代理解决任务。 在学生示例中,目标是通过考试。学生可以花时间参加 class、睡觉、上 Facebook 或在酒吧。参加 class 是一件 "boring",所以学生看不到这样做的直接好处。因此负奖励。相反,去酒吧很有趣,而且会带来积极的回报。然而,只有参加所有 3 classes 学生才能通过考试并获得最终的大奖。 现在的问题是:学生对即时奖励和未来奖励的重视程度分别是多少?折扣因子告诉你:折扣越小越看重即时奖励,因为未来的奖励只是"fade"长运行。如果我们使用小额折扣,学生可能更愿意总是去酒吧或睡觉。折扣接近 0,一步之后所有奖励也接近 0,因此在每个状态下,学生将尝试最大化即时奖励,因为在那之后 "nothing else matter".
相反,高折扣(最大 1)值 long-term 奖励更多:在这种情况下,最佳学生将参加所有 class 课程并通过考试。
选择折扣可能会很棘手,尤其是在没有终止状态的情况下(在本例中 "sleep" 是终止状态),因为折扣为 1 时,代理可能会忽略用于达到最高奖励。例如,如果 classes 会给出 -1 而不是 -2 的奖励,因为代理将永远在某个时间点在 "class" 和 "pub" 之间交替花费时间通过考试,因为折扣 1 奖励永远不会消失,所以即使在 10 年后,学生仍然会因为通过考试而获得 +10。
还可以考虑必须到达目标位置的虚拟代理。使用折扣 1,agent 不会学会以最少的步数到达它:只要到达它,对他来说都是一样的。
除此之外,折扣1还有一个数值问题。由于目标是最大化折扣奖励的累积和,如果奖励不打折(并且视野是无限的),总和将不会收敛。
Q1)首先你不要忘记环境给予的奖励。 agent采取的动作对环境的rewards没有影响,当然会影响followed trajectory获得的reward。
在示例中,这些 +1 和 -2 只是有趣的示例 :) "As a student" 你在 class 期间感到无聊,所以它的奖励是 -2,而你在其中玩得开心酒吧,所以奖励是+1。不要对这些数字背后的原因感到困惑,它们是环境给定的。
Q2)我们对"Example: State-Value Function for Student MRP (2)"中值为4.1的状态进行计算:
v(s) = (-2) + 0.9 * [(0.4 * 1.9) + (0.6 * 10)] = (-2) + 6.084 =~ 4.1
这里 David 使用 MRP 的 Bellman 方程。您可以在同一张幻灯片上找到它。