使用强化学习的多智能体连续空间寻路的最佳算法

【问题标题】：Best algorithm for multi agent continuous space path finding using Reinforcement learning使用强化学习的多智能体连续空间寻路的最佳算法
【发布时间】：2019-11-05 21:06:50
【问题描述】：

我正在做一个项目，我需要在多代理场景中的连续空间中找到从 1 点到另一个点的最佳优化路径。我正在使用强化学习寻找适合这个问题的最佳算法。我已经尝试过“混合合作竞争环境的多智能体演员评论家”，但它似乎没有达到 10000 个 epesidoes 的目标。我该如何改进这个算法，或者有没有其他算法可以帮助我解决这个问题。

【问题讨论】：

标签： deep-learning artificial-intelligence pytorch reinforcement-learning multi-agent

【解决方案1】：

多智能体强化学习很难掌握，并且尚未证明对一般情况有效。

问题在于，在多智能体中，从每个个体智能体的角度来看，环境变得不稳定。这意味着一个代理动作不能直接映射到状态，因为其他代理正在单独执行操作，这会“混淆”所有代理。这里有深入收集的多智能体研究：https://github.com/LantaoYu/MARL-Papers

如果你想追求你提到的actor-critic方法，我建议你进一步研究：https://arxiv.org/pdf/1706.02275.pdf如果你想完善Multi-Agent Actor Critic（MADDPG）

【讨论】：