深度Q学习Replay方法Memory Vanishing

Deep Q learning Replay method Memory Vanishing

在带有回放的强化学习中使用的 Q 学习算法中，人们会使用一种数据结构来存储训练中使用的先前经验（一个基本示例是 Python 中的元组） .对于复杂状态 space，我需要在大量不同情况下训练代理以获得正确近似 Q 值的神经网络。经验数据会占用越来越多的内存，因此我应该对要存储的经验数量施加一个更高的限制，之后计算机应该从内存中删除经验。

你认为 FIFO（先进先出）是一种在代理内存中操纵数据消失过程的好方法吗（这样，在达到内存限制后我会丢弃最旧的经验，这可能对允许代理更快地适应介质变化很有用）？我如何计算内存中的最大经验数以确保代理的 NN 上的 Q 学习收敛到我需要的 Q 函数逼近器（我知道这可以凭经验完成，我想知道是否有分析存在此限制的估算器）？

在 "Deep Reinforcement Learning" 的 preeminent paper 中，DeepMind 通过随机选择应该存储哪些经验来实现他们的结果。其余的经验都被丢弃了。

如果不进一步了解您要解决的问题，就很难说 FIFO 方法会如何影响您的结果。正如 dblclik 指出的那样，这可能会导致您的学习代理过度拟合。也就是说，值得一试。很可能存在这样一种情况，即使用 FIFO 使经验回放饱和会导致学习速度加快。我会尝试这两种方法，看看您的代理是否可以更快地达到收敛。

深度Q学习Replay方法Memory Vanishing

Deep Q learning Replay method Memory Vanishing

python

machine-learning

reinforcement-learning

q-learning

deep-learning