ai1024

强化学习基础

强化学习备忘录

几个基础问题:

1、RL中,哪些方法是Model-Based的,哪些方法是Model-Free的?

2、DRL中,哪些方法可以用在连续策略空间和有限(离散)动作空间上(DQN, DDQN, A3C等)?

      哪些方法可以用在连续策略空间和连续动作空间上(DDPG(Google), TRPO(OpenAI), PPO(OpenAI), DPPO(DeepMind))?

3、值函数近似方法中,是对状态值近似? 还是Q值近似? 

3、UCB系列方法总结

4、DRL如何分类?

根据 Berkeley 的深度强化学习课程我们可以分为
近似动态规划方法(Approximate Dynamic Programming Methods)
策略梯度方法(Policy Gradient Methods)
搜索+监督学习(Search + Supervised Learning)三类

 

发表于 2016-12-10 22:46  _1024  阅读(133)  评论(0编辑  收藏  举报
 

分类:

技术点:

相关文章: