时间差异学习和反向传播

【问题标题】：Temporal Difference Learning and Back-propagation时间差异学习和反向传播
【发布时间】：2016-05-25 03:57:35
【问题描述】：

我已阅读斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解 TD 学习是如何在神经网络中使用的。我正在尝试制作一个将使用 TD 学习的跳棋 AI，类似于他们在双陆棋中实现的。请解释TD反向传播的工作原理。

我已经提到了这个问题 - Neural Network and Temporal Difference Learning 但我无法理解接受的答案。如果可能，请用不同的方法解释。

【问题讨论】：

标签： machine-learning neural-network backpropagation reinforcement-learning temporal-difference

【解决方案1】：

TD 学习在神经网络中不使用。相反，在 TD 学习中使用神经网络来存储值（或 q 值）函数。

我认为您将反向传播（一种神经网络的概念）与 RL 中的自举混淆了。 Bootstrapping 结合最近的信息和以前的估计来生成新的估计。

当状态空间较大且值函数不易在表中存储时，采用神经网络作为近似方案来存储值函数。

关于前向/后向视图的讨论更多是关于资格跟踪等。RL bootstraps serval 及时领先的一个案例。但是，这是不切实际的，并且有一些方法（例如资格跟踪）可以留下痕迹并更新过去的状态。

这不应与神经网络中的反向传播相联系或混淆。与此无关。

【讨论】：