在情景上下文中训练 A3C 算法是否可行?

Is it feasibly to train an A3C algorithm in an episodic context?

A3C 算法(和 N 步 Q 学习)每 N 个时间步更新一次全局共享网络。 N 通常很小,我记得是 5 或 20。

是否可以将 N 设置为无穷大,这意味着网络仅在一集结束时进行训练?我不认为它一定更好 - 艰难,对我来说它听起来可能 - 但至少它不应该更糟,对吧?

缺乏基于多个智能体在不同环境中对环境的异步探索的异步训练,因此没有重放记忆的训练过程的稳定性,如果按顺序进行训练(如:对于每个工作线程,在整个观察到的 SAR 序列上训练网络)。很难,训练仍然可以用子序列异步完成,它只会使有状态 LSTM 的训练稍微复杂一点。

我问的原因是 "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" 论文。将其与 A3C 等算法进行比较,从代码工程的角度来看,以相同的情节方式训练两种算法更有意义。

当然,只需将 N 设置为大于最大剧集长度(或修改源代码以删除批处理条件。请注意,在原始 A3C 论文中,这是通过动态控制环境完成的(具有连续的动作空间)具有良好的结果。通常认为 能够 更新中间情节( 不需要 )是一个关键优势TD方法:它使用MDP的马尔可夫条件。