强化学习基础
强化学习备忘录
几个基础问题:
1、RL中,哪些方法是Model-Based的,哪些方法是Model-Free的?
2、DRL中,哪些方法可以用在连续策略空间和有限(离散)动作空间上(DQN, DDQN, A3C等)?
哪些方法可以用在连续策略空间和连续动作空间上(DDPG(Google), TRPO(OpenAI), PPO(OpenAI), DPPO(DeepMind))?
3、值函数近似方法中,是对状态值近似? 还是Q值近似?
3、UCB系列方法总结
4、DRL如何分类?
根据 Berkeley 的深度强化学习课程我们可以分为
近似动态规划方法(Approximate Dynamic Programming Methods)
策略梯度方法(Policy Gradient Methods)
搜索+监督学习(Search + Supervised Learning)三类