理解和评估强化学习中的不同方法
Understanding and Evaluating different methods in Reinforcement Learning
我一直在尝试使用 Q-learning
、Deep Q-Network
、Double DQN
和 Dueling Double DQN
等不同变体在 Python 上实施强化学习算法。考虑一个车杆示例并评估每个变体的性能,我可以考虑绘制 sum of rewards
到 number of episodes
(附上绘图图片)和实际图形输出小车移动时杆子的稳定性。
但这两个评估在定量解释更好的变体方面并没有真正的意义。我是强化学习的新手,正在尝试了解是否有任何其他方法可以在同一问题上比较 RL 模型的不同变体。
我指的是 colab link https://colab.research.google.com/github/ageron/handson-ml2/blob/master/18_reinforcement_learning.ipynb#scrollTo=MR0z7tfo3k9C 中有关车杆示例所有变体的代码。
你可以在关于这些算法的研究论文中找到答案,因为当一个新算法被提出时,我们通常需要实验来证明它比其他算法有明显的优势。
关于RL算法的研究论文中最常用的评估方法是平均return(注意不是奖励,return是累积奖励,就像游戏中的分数)随着时间步长,并且有很多方法可以对 return 进行平均,例如,对不同的超参数进行平均,例如 Soft Actor-Critic paper 的比较评估平均对不同的随机种子(初始化模型):
Figure 1 shows the total average return of evaluation rolloutsduring
training for DDPG, PPO, and TD3. We train fivedifferent instances of
each algorithm with different randomseeds, with each performing one
evaluation rollout every1000 environment steps. The solid curves
corresponds to themean and the shaded region to the minimum and
maximumreturns over the five trials.
而且我们通常不仅要比较许多算法在一项任务上的性能,还要比较不同任务集(即基准测试)的性能,因为算法可能具有某种形式的归纳偏差,使它们在某些形式的任务中表现更好但更差在其他任务上,例如 Phasic Policy Gradient paper 与 PPO 的实验比较:
We report results on the environments in Procgen Benchmark
(Cobbe et al.,2019). This benchmark was designed to be highly
diverse, and we expect improvements on this benchmark to transfer well
to many other RL environment
我一直在尝试使用 Q-learning
、Deep Q-Network
、Double DQN
和 Dueling Double DQN
等不同变体在 Python 上实施强化学习算法。考虑一个车杆示例并评估每个变体的性能,我可以考虑绘制 sum of rewards
到 number of episodes
但这两个评估在定量解释更好的变体方面并没有真正的意义。我是强化学习的新手,正在尝试了解是否有任何其他方法可以在同一问题上比较 RL 模型的不同变体。
我指的是 colab link https://colab.research.google.com/github/ageron/handson-ml2/blob/master/18_reinforcement_learning.ipynb#scrollTo=MR0z7tfo3k9C 中有关车杆示例所有变体的代码。
你可以在关于这些算法的研究论文中找到答案,因为当一个新算法被提出时,我们通常需要实验来证明它比其他算法有明显的优势。
关于RL算法的研究论文中最常用的评估方法是平均return(注意不是奖励,return是累积奖励,就像游戏中的分数)随着时间步长,并且有很多方法可以对 return 进行平均,例如,对不同的超参数进行平均,例如 Soft Actor-Critic paper 的比较评估平均对不同的随机种子(初始化模型):
Figure 1 shows the total average return of evaluation rolloutsduring training for DDPG, PPO, and TD3. We train fivedifferent instances of each algorithm with different randomseeds, with each performing one evaluation rollout every1000 environment steps. The solid curves corresponds to themean and the shaded region to the minimum and maximumreturns over the five trials.
而且我们通常不仅要比较许多算法在一项任务上的性能,还要比较不同任务集(即基准测试)的性能,因为算法可能具有某种形式的归纳偏差,使它们在某些形式的任务中表现更好但更差在其他任务上,例如 Phasic Policy Gradient paper 与 PPO 的实验比较:
We report results on the environments in Procgen Benchmark (Cobbe et al.,2019). This benchmark was designed to be highly diverse, and we expect improvements on this benchmark to transfer well to many other RL environment