【发布时间】:2016-03-14 20:36:33
【问题描述】:
我在大学学习一门名为“智能机器”的课程。我们被介绍了 3 种强化学习的方法,并且通过这些方法,我们得到了何时使用它们的直觉,我引用:
- Q-Learning - 最好在 MDP 无法解决时使用。
- 时间差异学习 - 最好在 MDP 已知或可以学习但无法解决时使用。
- 基于模型 - 最适用于无法学习 MDP 的情况。
有什么好的例子可以解释何时选择一种方法而不是另一种方法?
【问题讨论】:
-
Q-learning 是一种时间差分算法。
-
不是Q-Learning是用来计算Q值的,而Temporal Difference Learning是用来计算Value函数的吗? [他们是相关的,但我猜不完全一样]还是我弄错了?
-
V是状态值函数,Q是动作值函数,Q-learning是一种特定的off-policy时差学习算法。您可以使用不同的 TD 或非 TD 方法学习 Q 或 V,这两种方法都可以是基于模型的,也可以不是。
-
感谢语义,但它仍然无法帮助我找到何时使用哪个示例。什么时候选择 Q 值而不是 V 函数比较好?
-
您需要动作价值函数才能形成策略。可以直接学习,也可以在知道状态转移概率函数的情况下从状态值函数中检索。
标签: machine-learning reinforcement-learning q-learning temporal-difference