【发布时间】:2018-10-23 23:33:36
【问题描述】:
我正在从事 NIPS 2017 Learning to Run 项目。我的时间有限,我需要尝试 2 个模型(DDPG 和 Soft Actor Critic)。模拟很慢,而且需要太多时间。 我想知道, 在我训练了其中一个之后,是否可以使用它的 state-action-reward 数据来训练另一个?
【问题讨论】:
标签: deep-learning reinforcement-learning
我正在从事 NIPS 2017 Learning to Run 项目。我的时间有限,我需要尝试 2 个模型(DDPG 和 Soft Actor Critic)。模拟很慢,而且需要太多时间。 我想知道, 在我训练了其中一个之后,是否可以使用它的 state-action-reward 数据来训练另一个?
【问题讨论】:
标签: deep-learning reinforcement-learning
如果您将未经训练的 SAC 模型的 Q-table 替换为经过训练的 DDPG 的 Q-table,那么您将使用 DDPG 方法生成的融合策略。同样,将未经训练的 DDPG 模型的 Q-table 替换为来自已训练 SAC 模型的 Q-table 将为其提供遵循 SAC 方法的收敛策略。
如果您还没有,请查看this paper,其中讨论并试验了 DDPG 和 SAC 之间的差异。
【讨论】: