深度Q学习Replay方法Memory Vanishing

Deep Q learning Replay method Memory Vanishing

在带有回放的强化学习中使用的 Q 学习算法中,人们会使用一种数据结构来存储训练中使用的先前经验(一个基本示例是 Python 中的元组) .对于复杂状态 space,我需要在大量不同情况下训练代理以获得正确近似 Q 值的神经网络。经验数据会占用越来越多的内存,因此我应该对要存储的经验数量施加一个更高的限制,之后计算机应该从内存中删除经验。

你认为 FIFO(先进先出)是一种在代理内存中操纵数据消失过程的好方法吗(这样,在达到内存限制后我会丢弃最旧的经验,这可能对允许代理更快地适应介质变化很有用)?我如何计算内存中的最大经验数以确保代理的 NN 上的 Q 学习收敛到我需要的 Q 函数逼近器(我知道这可以凭经验完成,我想知道是否有分析存在此限制的估算器)?

在 "Deep Reinforcement Learning" 的 preeminent paper 中,DeepMind 通过随机选择应该存储哪些经验来实现他们的结果。其余的经验都被丢弃了。

如果不进一步了解您要解决的问题,就很难说 FIFO 方法会如何影响您的结果。正如 dblclik 指出的那样,这可能会导致您的学习代理过度拟合。也就是说,值得一试。很可能存在这样一种情况,即使用 FIFO 使经验回放饱和会导致学习速度加快。我会尝试这两种方法,看看您的代理是否可以更快地达到收敛。