ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
发表时间:2019(ICLR 2019)
文章要点:这篇文章主要从理论上分析了model based RL的lower bound,然后不断最大化这个lower bound,从而证明了理论上可以单调上升。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这个框架还提出了一个optimism-in-face-of-uncertainty principle,最要用来鼓励探索,虽然最后没用貌似。作者还说最后用的l2的loss,而不是MSE的l2平方loss,前者效果更好。
最后文章提出了一个叫Stochastic Lower Bounds Optimization (SLBO)的算法来做实验。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这里6.1和6.2是
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
从算法上来看,这个SLBO和MB-TRPO的唯一区别就是SLBO多了个循环,model和policy都要多更新几次,也就仅此而已了。虽然前面理论倒是吹了很多。。。然后实验在mujoco上做的,做的连续动作,确定性转移。效果也就那样吧。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
总结:有启发的一点是可以在model based上面做探索,比如model不准的地方是不是可以在真实的环境里做下探索。虽然文章里面没有这方面的实验。
疑问:为啥l2 loss,比l2平方loss效果更好?
文章在证明的时候要求
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这里面要求一个maximization,这又是一个RL问题,要求这个东西solvable也太难了。

相关文章:

  • 2022-02-01
  • 2021-07-12
  • 2021-06-09
  • 2021-07-24
  • 2022-01-10
  • 2021-12-15
  • 2021-08-31
猜你喜欢
  • 2022-03-03
  • 2022-12-23
  • 2021-11-18
  • 2021-08-18
  • 2021-05-28
  • 2021-06-18
  • 2021-11-16
相关资源
相似解决方案