• policy iteration
    RL强化学习各种算法流程伪代码

  • value iteration
    RL强化学习各种算法流程伪代码

    注:policy iteration使用bellman方程来更新value,最后收敛的value 即RL强化学习各种算法流程伪代码 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛得到的value即RL强化学习各种算法流程伪代码就是当前state状态下的最优的value值。因此,只要最后收敛,那么最优的policy也就得到的。因此这个方法是基于更新value的,所以叫value iteration。

  • TD(0)
    RL强化学习各种算法流程伪代码

  • SARSA
    RL强化学习各种算法流程伪代码

  • Q-learning
    RL强化学习各种算法流程伪代码

  • Double Q-learning
    RL强化学习各种算法流程伪代码

  • Deep Deterministic policy gradient( actor-citric)
    RL强化学习各种算法流程伪代码

相关文章:

  • 2022-01-29
  • 2021-09-21
  • 2021-04-12
  • 2022-01-10
  • 2021-06-03
  • 2021-06-16
  • 2021-08-15
  • 2021-07-07
猜你喜欢
  • 2021-10-12
  • 2021-11-29
  • 2021-12-23
  • 2021-04-28
  • 2021-05-20
  • 2021-06-23
  • 2021-08-18
相关资源
相似解决方案