进化策略和强化学习的区别?

Difference between Evolutionary Strategies and Reinforcement Learning?

我正在学习机器人强化学习中采用的方法,并且遇到了进化策略的概念。但我无法理解 RL 和 ES 有何不同。谁能解释一下?

据我了解,我知道两个主要的。

1)强化学习使用一个代理的概念,代理通过以不同方式与环境交互来学习。在进化算法中,它们通常从许多 "agents" 开始,并且只有 "strong ones survive"(具有产生最低损失的特征的代理)。

2) 强化学习agent(s)学习积极和消极的行为,但进化算法只学习最优的,消极或次优的解决方案信息被丢弃和丢失。

例子

您想建立一个算法来调节房间的温度。

房间温度为 15 °C,而您希望它为 23 °C。

使用强化学习,智能体将尝试一系列不同的动作来升高和降低温度。最终,它了解到提高温度会产生很好的回报。但它也知道降低温度会产生不好的回报。

对于进化算法,它从一堆随机代理开始,这些代理都有一组预编程的动作要执行。然后具有 "increase temperature" 动作的代理存活下来,并移动到下一代。最终,只有提高温度的试剂才能存活下来,并被认为是最佳解决方案。但是,算法不知道如果降低温度会发生什么。

TL;DR: RL 通常是一个智能体,尝试不同的动作,学习并记住所有信息(正面或负面)。 EM 使用许多猜测许多动作的代理,只有具有最佳动作的代理才能生存。基本上是一种解决问题的蛮力方法。

我认为Evolutionary Strategies和Reinforcement Learning最大的区别在于ES是一种全局优化技术,而RL是一种局部优化技术。因此 RL 可以更快地收敛到局部最优值,而 ES 可以更慢地收敛到全局最小值。