回顾一下action-value函数:
Value-Based是指:
但是一般来说,这个Q*我们是无从得出的,因此提出使用卷积网络来近似:
Deep Q-Network (DQN)
Approximate the Q Function
Deep Q Network (DQN)
Apply DQN to Play Game
Temporal Difference (TD) Learning
一个小例子
那么存不存在一种方法,不用完成旅行,就可以进行更新呢?
Why does TD learning work?
TD Learning for DQN
没看懂?别急,下面简单推导一下: