【问题标题】:Temporal Difference Learning and Back-propagation时间差异学习和反向传播
【发布时间】:2016-05-25 03:57:35
【问题描述】:

我已阅读斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解 TD 学习是如何在神经网络中使用的。我正在尝试制作一个将使用 TD 学习的跳棋 AI,类似于他们在双陆棋中实现的。请解释TD反向传播的工作原理。

我已经提到了这个问题 - Neural Network and Temporal Difference Learning 但我无法理解接受的答案。如果可能,请用不同的方法解释。

【问题讨论】:

    标签: machine-learning neural-network backpropagation reinforcement-learning temporal-difference


    【解决方案1】:

    TD 学习在神经网络中不使用。相反,在 TD 学习中使用神经网络来存储值(或 q 值)函数。

    我认为您将反向传播(一种神经网络的概念)与 RL 中的自举混淆了。 Bootstrapping 结合最近的信息和以前的估计来生成新的估计。

    当状态空间较大且值函数不易在表中存储时,采用神经网络作为近似方案来存储值函数。

    关于前向/后向视图的讨论更多是关于资格跟踪等。RL bootstraps serval 及时领先的一个案例。但是,这是不切实际的,并且有一些方法(例如资格跟踪)可以留下痕迹并更新过去的状态。

    这不应与神经网络中的反向传播相联系或混淆。与此无关。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-06-07
      • 2012-05-28
      • 2013-03-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-05-06
      • 1970-01-01
      相关资源
      最近更新 更多