强化学习的种类

cs294-RL introduction

  1. model-based RLcs294-RL introduction

cs294-RL introduction

值函数

cs294-RL introduction

policy gradient

cs294-RL introduction

actor-critic: value function plus policy gradientscs294-RL introduction

为什么要有那么多的RL算法?

  1. 协调因素:采样高效、稳定
  2. 不同假设:随机或确定、连续or离散、episode or infinite horizon
  3. 难度不同:策略展示简单还是模型展示简单

cs294-RL introduction

采样高效、on-policy or off-policy

cs294-RL introduction

 

算法的采样比较:

cs294-RL introduction

具体算法:

cs294-RL introduction

 

相关文章: