【发布时间】:2019-11-04 00:02:55
【问题描述】:
我正在开发强化学习代理。我已经弄清楚了结构和算法。目前我的目标是提高学习过程的稳定性。我将 keras 用于 ML 部分,并且使用 adam 优化器取得了很好的效果。这是 100 次运行的过程图(结果很好但学习过程确实不稳定)。 我已经说过我想提高稳定性,所以我尝试将优化器切换到 SGD,结果如下(我真的很困惑,因为它似乎越来越糟)。 一次运行和另一次运行之间的唯一区别是优化器。任何想法是什么导致了这种行为?
【问题讨论】:
标签: tensorflow machine-learning optimization keras reinforcement-learning