使用强化学习的多代理连续 space 路径查找的最佳算法

Best algorithm for multi agent continuous space path finding using Reinforcement learning

我正在做一个项目,我需要在多代理场景中找到从一个点到另一个连续 space 的最佳优化路径。我正在使用强化学习寻找适合此问题的最佳算法。我试过 "Multi-agent actor-critic for mixed cooperative-competitive environment" 但它似乎没有达到 10000 集的目标。我该如何改进这个算法,或者是否有任何其他算法可以帮助我解决这个问题。

Multi-agent强化学习比较难掌握,对一般情况还没有证明有效。

问题在于,在 multi-agent 中,从每个代理人的角度来看,环境变得 non-stationary。这意味着代理操作不能直接映射到状态,因为其他代理正在单独执行操作,"confuse" 所有代理。 这里有 in-depth 的 multi-agent 研究合集:https://github.com/LantaoYu/MARL-Papers

如果你想追求你提到的actor-critic方法,我推荐这个供你进一步研究:https://arxiv.org/pdf/1706.02275.pdf如果你想完善Multi-Agent 演员评论家 (MADDPG)