Q 学习 vs 时间差异 vs 基于模型的强化学习答案

【问题标题】：Q-learning vs temporal-difference vs model-based reinforcement learningQ 学习 vs 时间差异 vs 基于模型的强化学习
【发布时间】：2016-03-14 20:36:33
【问题描述】：

我在大学学习一门名为“智能机器”的课程。我们被介绍了 3 种强化学习的方法，并且通过这些方法，我们得到了何时使用它们的直觉，我引用：

Q-Learning - 最好在 MDP 无法解决时使用。
时间差异学习 - 最好在 MDP 已知或可以学习但无法解决时使用。
基于模型 - 最适用于无法学习 MDP 的情况。

有什么好的例子可以解释何时选择一种方法而不是另一种方法？

【问题讨论】：

Q-learning 是一种时间差分算法。
不是Q-Learning是用来计算Q值的，而Temporal Difference Learning是用来计算Value函数的吗？ [他们是相关的，但我猜不完全一样]还是我弄错了？
V是状态值函数，Q是动作值函数，Q-learning是一种特定的off-policy时差学习算法。您可以使用不同的 TD 或非 TD 方法学习 Q 或 V，这两种方法都可以是基于模型的，也可以不是。
感谢语义，但它仍然无法帮助我找到何时使用哪个示例。什么时候选择 Q 值而不是 V 函数比较好？
您需要动作价值函数才能形成策略。可以直接学习，也可以在知道状态转移概率函数的情况下从状态值函数中检索。

标签： machine-learning reinforcement-learning q-learning temporal-difference

【解决方案1】：

为了更好地理解基于模型的 RL，这个 repo 提供了一些高质量的论文。 https://github.com/opendilab/awesome-model-based-RL

【讨论】：

虽然此链接可能会回答问题，但最好在此处包含答案的基本部分并提供链接以供参考。如果链接页面发生更改，仅链接答案可能会失效。 - From Review

【解决方案2】：

时间差异是an approach to learning how to predict a quantity that depends on future values of a given signal。它可用于学习 V 函数和 Q 函数，而 Q-learning 是用于学习 Q 函数的特定 TD 算法。正如 Don Reba 所说，您需要 Q 函数来执行操作（例如，遵循 epsilon-greedy 策略）。如果您只有 V 函数，您仍然可以通过迭代所有可能的下一个状态并选择将您引导到具有最高 V 值状态的操作来导出 Q 函数。对于示例和更多见解，我推荐classic book from Sutton and Barto。

在 无模型 RL 中，您无需学习状态转换函数（模型），您只能依赖样本。但是，您可能也有兴趣学习它，例如因为您无法收集很多样本并想要生成一些虚拟样本。在这种情况下，我们讨论的是基于模型的 RL。基于模型的强化学习在机器人技术中非常普遍，您无法执行许多真实模拟，否则机器人会崩溃。 This 是一个很好的调查，有很多例子（但它只讨论了策略搜索算法）。另一个例子请看this paper。在这里，作者与策略一起学习了一个高斯过程来近似机器人的前向模型，以模拟轨迹并减少真实机器人交互的数量。

【讨论】：