强化学习和监督学习

表格方法的局限

《强化学习》近似值函数方法

RL中的函数近似

《强化学习》近似值函数方法
《强化学习》近似值函数方法
《强化学习》近似值函数方法

监督学习-MC

《强化学习》近似值函数方法

MC—TD

《强化学习》近似值函数方法
《强化学习》近似值函数方法
《强化学习》近似值函数方法
《强化学习》近似值函数方法

基于值函数的RL损失函数

《强化学习》近似值函数方法

近似方法的一些困难

Deep Q-Network

《强化学习》近似值函数方法
《强化学习》近似值函数方法
《强化学习》近似值函数方法
《强化学习》近似值函数方法

经验回放

《强化学习》近似值函数方法
《强化学习》近似值函数方法

目标网络

《强化学习》近似值函数方法

奖励裁剪

《强化学习》近似值函数方法

DQN的一些问题和解决

Q值自相关问题

《强化学习》近似值函数方法
《强化学习》近似值函数方法

Q值过度估计

《强化学习》近似值函数方法
《强化学习》近似值函数方法
《强化学习》近似值函数方法

优先经验回放

《强化学习》近似值函数方法
《强化学习》近似值函数方法

Bootstrap DQN

《强化学习》近似值函数方法

部分可见性

《强化学习》近似值函数方法

相关文章:

  • 2021-10-27
  • 2021-09-27
  • 2022-01-01
  • 2021-10-22
  • 2022-12-23
  • 2021-12-13
  • 2021-12-02
猜你喜欢
  • 2021-12-06
  • 2021-10-05
  • 2022-12-23
  • 2021-06-08
  • 2021-12-12
  • 2021-05-13
  • 2021-07-01
相关资源
相似解决方案