【发布时间】:2019-11-05 21:06:50
【问题描述】:
我正在做一个项目,我需要在多代理场景中的连续空间中找到从 1 点到另一个点的最佳优化路径。我正在使用强化学习寻找适合这个问题的最佳算法。我已经尝试过“混合合作竞争环境的多智能体演员评论家”,但它似乎没有达到 10000 个 epesidoes 的目标。我该如何改进这个算法,或者有没有其他算法可以帮助我解决这个问题。
【问题讨论】:
标签: deep-learning artificial-intelligence pytorch reinforcement-learning multi-agent