【问题标题】:Using training data for training another model使用训练数据训练另一个模型
【发布时间】:2018-10-23 23:33:36
【问题描述】:

我正在从事 NIPS 2017 Learning to Run 项目。我的时间有限,我需要尝试 2 个模型(DDPG 和 Soft Actor Critic)。模拟很慢,而且需要太多时间。 我想知道, 在我训练了其中一个之后,是否可以使用它的 state-action-reward 数据来训练另一个?

【问题讨论】:

    标签: deep-learning reinforcement-learning


    【解决方案1】:

    如果您将未经训练的 SAC 模型的 Q-table 替换为经过训练的 DDPG 的 Q-table,那么您将使用 DDPG 方法生成的融合策略。同样,将未经训练的 DDPG 模型的 Q-table 替换为来自已训练 SAC 模型的 Q-table 将为其提供遵循 SAC 方法的收敛策略。

    如果您还没有,请查看this paper,其中讨论并试验了 DDPG 和 SAC 之间的差异。

    【讨论】:

      猜你喜欢
      • 2017-08-19
      • 2018-05-01
      • 2020-12-15
      • 1970-01-01
      • 1970-01-01
      • 2020-05-27
      • 2022-11-17
      • 2020-10-22
      • 1970-01-01
      相关资源
      最近更新 更多