DQN模型 输入的是处理后的连续帧图像(降维幅度图),经过卷积层层后接两个全连接层,输出是所有动作的Q值。 算法 1. NIPS 2013 2. Nature 2015 2.1 算法 2.2 流程图 3. 不足 由于Replay Memory原因: 无法应用于连续动作控制; 只能处理只需短时记忆问题,无法处理需长时记忆问题(后续研究提出了使用LSTM等改进方法); 相关文章: 2021-07-31 2021-06-22 2021-12-19 2021-04-03 2021-05-15 2021-06-24 2021-12-12 2021-07-18