1.强化概念:巴浦洛夫的条件反射实验

强化学习——强化概念

强化学习——强化概念

在不断的重复实验后,下一个状态的价值不断的强化影响上一个状态的价值。

2.Temporal Differenct时序差分(TD单步更新)

拿下一步的Q值更新这一步的Q值

第一个强化学习——强化概念强化学习——强化概念想要逼近的目标值,软更新的方式是每次更新一点点,

在这个不断更新的过程中需要强化学习——强化概念

强化学习——强化概念

3.与环境交互

强化学习——强化概念

相关文章:

  • 2021-12-13
  • 2021-10-26
  • 2021-11-28
  • 2021-10-18
  • 2021-08-06
  • 2021-05-10
  • 2021-04-01
猜你喜欢
  • 2021-04-09
  • 2021-12-02
  • 2021-12-02
  • 2021-11-17
  • 2021-06-10
  • 2021-06-16
相关资源
相似解决方案