强化学习基础

强化学习备忘录

几个基础问题:

1、RL中，哪些方法是Model-Based的，哪些方法是Model-Free的?

2、DRL中，哪些方法可以用在连续策略空间和有限(离散)动作空间上(DQN, DDQN, A3C等)?

哪些方法可以用在连续策略空间和连续动作空间上(DDPG(Google), TRPO(OpenAI), PPO(OpenAI), DPPO(DeepMind))?

3、值函数近似方法中，是对状态值近似? 还是Q值近似?

3、UCB系列方法总结

4、DRL如何分类?

根据 Berkeley 的深度强化学习课程我们可以分为

近似动态规划方法(Approximate Dynamic Programming Methods)

策略梯度方法(Policy Gradient Methods)

搜索+监督学习(Search + Supervised Learning)三类

发表于 2016-12-10 22:46 _1024 阅读(133) 评论(0) 编辑收藏举报