DQN模型

深度强化学习DQN
输入的是处理后的连续帧图像(降维幅度图),经过卷积层层后接两个全连接层,输出是所有动作的Q值。

算法

1. NIPS 2013

深度强化学习DQN

2. Nature 2015

2.1 算法

深度强化学习DQN

2.2 流程图

深度强化学习DQN
深度强化学习DQN

3. 不足

由于Replay Memory原因:

  1. 无法应用于连续动作控制;
  2. 只能处理只需短时记忆问题,无法处理需长时记忆问题(后续研究提出了使用LSTM等改进方法);

相关文章:

  • 2021-07-31
  • 2021-06-22
  • 2021-12-19
  • 2021-04-03
  • 2021-05-15
  • 2021-06-24
  • 2021-12-12
  • 2021-07-18
猜你喜欢
  • 2021-11-17
  • 2021-07-20
  • 2021-06-20
  • 2021-11-20
  • 2021-07-20
  • 2021-11-17
  • 2021-08-11
相关资源
相似解决方案