为什么RL被称为'reinforcement'学习?
Why is RL called 'reinforcement' learning?
我理解为什么机器学习被这样命名,最重要的是监督和非监督学习背后的术语。那么reinforced强化学习是什么?
强化学习中的“强化”是指如何鼓励某些行为,而阻止其他行为。通过环境体验获得的奖励可以强化行为。
强化学习是通过反复试验来强化的。不正确(或不太理想)的结果不需要手动更正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。
现代强化学习建立在两个主线程之上。一条线索涉及通过反复试验进行学习,它起源于 动物学习心理学。第二个线程涉及最优控制问题,它是使用价值函数和动态规划的解决方案(Sutton and Barto., 2018)。
强化学习从研究的第一线程中借用了他的名字。根据 Watkins (1989) 的研究,在研究动物的学习能力时,动物可能会自动获得强化物。例如,在行为方面,正强化物 可能是给饥饿的动物一点食物,或者给口渴的动物喝一口水。相反,负强化物可能是触电。
PS。 Watkins 提出了 Q-learning 算法。
编辑:(添加了更多历史记录)
根据 Sutton 和 Barto (2018) 的说法:“在桑代克表达效果定律之后,动物学习中的术语“强化”开始使用,首先在这种情况下(据我们所知)出现在 1927 年巴甫洛夫关于条件反射的专着的英译本中。巴甫洛夫将强化描述为强化应有的行为模式
对于接受刺激的动物 - 强化物 - 与另一种刺激或反应具有适当的时间关系。
Sutton、Richard S. 和 Andrew G. Barto。强化学习:简介。麻省理工出版社,2018.
Thorndike, E. L. 动物智能。 Hafner, Darien, CT, 1911.
沃特金斯,克里斯托弗·约翰·康沃尔·赫拉比。 “从延迟奖励中学习。” (1989).
我理解为什么机器学习被这样命名,最重要的是监督和非监督学习背后的术语。那么reinforced强化学习是什么?
强化学习中的“强化”是指如何鼓励某些行为,而阻止其他行为。通过环境体验获得的奖励可以强化行为。
强化学习是通过反复试验来强化的。不正确(或不太理想)的结果不需要手动更正。相反,重点是探索,并从这些相同的经验中获得反馈(强化)。
现代强化学习建立在两个主线程之上。一条线索涉及通过反复试验进行学习,它起源于 动物学习心理学。第二个线程涉及最优控制问题,它是使用价值函数和动态规划的解决方案(Sutton and Barto., 2018)。 强化学习从研究的第一线程中借用了他的名字。根据 Watkins (1989) 的研究,在研究动物的学习能力时,动物可能会自动获得强化物。例如,在行为方面,正强化物 可能是给饥饿的动物一点食物,或者给口渴的动物喝一口水。相反,负强化物可能是触电。
PS。 Watkins 提出了 Q-learning 算法。
编辑:(添加了更多历史记录)
根据 Sutton 和 Barto (2018) 的说法:“在桑代克表达效果定律之后,动物学习中的术语“强化”开始使用,首先在这种情况下(据我们所知)出现在 1927 年巴甫洛夫关于条件反射的专着的英译本中。巴甫洛夫将强化描述为强化应有的行为模式 对于接受刺激的动物 - 强化物 - 与另一种刺激或反应具有适当的时间关系。
Sutton、Richard S. 和 Andrew G. Barto。强化学习:简介。麻省理工出版社,2018.
Thorndike, E. L. 动物智能。 Hafner, Darien, CT, 1911.
沃特金斯,克里斯托弗·约翰·康沃尔·赫拉比。 “从延迟奖励中学习。” (1989).