在情景上下文中训练 A3C 算法是否可行？

Is it feasibly to train an A3C algorithm in an episodic context?

A3C 算法（和 N 步 Q 学习）每 N 个时间步更新一次全局共享网络。 N 通常很小，我记得是 5 或 20。

是否可以将 N 设置为无穷大，这意味着网络仅在一集结束时进行训练？我不认为它一定更好 - 艰难，对我来说它听起来可能 - 但至少它不应该更糟，对吧？

缺乏基于多个智能体在不同环境中对环境的异步探索的异步训练，因此没有重放记忆的训练过程的稳定性，如果按顺序进行训练（如：对于每个工作线程，在整个观察到的 SAR 序列上训练网络）。很难，训练仍然可以用子序列异步完成，它只会使有状态 LSTM 的训练稍微复杂一点。

我问的原因是 "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" 论文。将其与 A3C 等算法进行比较，从代码工程的角度来看，以相同的情节方式训练两种算法更有意义。

当然，只需将 N 设置为大于最大剧集长度（或修改源代码以删除批处理条件。请注意，在原始 A3C 论文中，这是通过动态控制环境完成的（具有连续的动作空间）具有良好的结果。通常认为能够更新中间情节（ 不需要 ）是一个关键优势TD方法：它使用MDP的马尔可夫条件。