【发布时间】:2016-05-25 03:57:35
【问题描述】:
我已阅读斯坦福的这一页 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我无法理解 TD 学习是如何在神经网络中使用的。我正在尝试制作一个将使用 TD 学习的跳棋 AI,类似于他们在双陆棋中实现的。请解释TD反向传播的工作原理。
我已经提到了这个问题 - Neural Network and Temporal Difference Learning 但我无法理解接受的答案。如果可能,请用不同的方法解释。
【问题讨论】:
标签: machine-learning neural-network backpropagation reinforcement-learning temporal-difference