使用训练数据训练另一个模型

【问题标题】：Using training data for training another model使用训练数据训练另一个模型
【发布时间】：2018-10-23 23:33:36
【问题描述】：

我正在从事 NIPS 2017 Learning to Run 项目。我的时间有限，我需要尝试 2 个模型（DDPG 和 Soft Actor Critic）。模拟很慢，而且需要太多时间。我想知道，在我训练了其中一个之后，是否可以使用它的 state-action-reward 数据来训练另一个？

【问题讨论】：

【解决方案1】：

如果您将未经训练的 SAC 模型的 Q-table 替换为经过训练的 DDPG 的 Q-table，那么您将使用 DDPG 方法生成的融合策略。同样，将未经训练的 DDPG 模型的 Q-table 替换为来自已训练 SAC 模型的 Q-table 将为其提供遵循 SAC 方法的收敛策略。

如果您还没有，请查看this paper，其中讨论并试验了 DDPG 和 SAC 之间的差异。

【讨论】：