为什么RL被称为'reinforcement'学习？

Why is RL called 'reinforcement' learning?

我理解为什么机器学习被这样命名，最重要的是监督和非监督学习背后的术语。那么reinforced强化学习是什么？

强化学习中的“强化”是指如何鼓励某些行为，而阻止其他行为。通过环境体验获得的奖励可以强化行为。

强化学习是通过反复试验来强化的。不正确（或不太理想）的结果不需要手动更正。相反，重点是探索，并从这些相同的经验中获得反馈（强化）。

现代强化学习建立在两个主线程之上。一条线索涉及通过反复试验进行学习，它起源于 动物学习心理学。第二个线程涉及最优控制问题，它是使用价值函数和动态规划的解决方案（Sutton and Barto., 2018）。强化学习从研究的第一线程中借用了他的名字。根据 Watkins (1989) 的研究，在研究动物的学习能力时，动物可能会自动获得强化物。例如，在行为方面，正强化物 可能是给饥饿的动物一点食物，或者给口渴的动物喝一口水。相反，负强化物可能是触电。

PS。 Watkins 提出了 Q-learning 算法。

编辑：（添加了更多历史记录）

根据 Sutton 和 Barto (2018) 的说法：“在桑代克表达效果定律之后，动物学习中的术语“强化”开始使用，首先在这种情况下（据我们所知）出现在 1927 年巴甫洛夫关于条件反射的专着的英译本中。巴甫洛夫将强化描述为强化应有的行为模式对于接受刺激的动物 - 强化物 - 与另一种刺激或反应具有适当的时间关系。

Sutton、Richard S. 和 Andrew G. Barto。强化学习：简介。麻省理工出版社，2018.
Thorndike, E. L. 动物智能。 Hafner, Darien, CT, 1911.
沃特金斯，克里斯托弗·约翰·康沃尔·赫拉比。 “从延迟奖励中学习。” (1989).

为什么RL被称为'reinforcement'学习？

Why is RL called 'reinforcement' learning?

machine-learning

reinforcement-learning

deep-learning