ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES

ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
发表时间：2019（ICLR 2019）
文章要点：这篇文章主要从理论上分析了model based RL的lower bound，然后不断最大化这个lower bound，从而证明了理论上可以单调上升。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这个框架还提出了一个optimism-in-face-of-uncertainty principle，最要用来鼓励探索，虽然最后没用貌似。作者还说最后用的l2的loss，而不是MSE的l2平方loss，前者效果更好。
最后文章提出了一个叫Stochastic Lower Bounds Optimization (SLBO)的算法来做实验。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES

这里6.1和6.2是

从算法上来看，这个SLBO和MB-TRPO的唯一区别就是SLBO多了个循环，model和policy都要多更新几次，也就仅此而已了。虽然前面理论倒是吹了很多。。。然后实验在mujoco上做的，做的连续动作，确定性转移。效果也就那样吧。
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
总结：有启发的一点是可以在model based上面做探索，比如model不准的地方是不是可以在真实的环境里做下探索。虽然文章里面没有这方面的实验。
疑问：为啥l2 loss，比l2平方loss效果更好？
文章在证明的时候要求
ALGORITHMIC FRAMEWORK FOR MODEL-BASED DEEP REINFORCEMENT LEARNING WITH THEORETICAL GUARANTEES
这里面要求一个maximization，这又是一个RL问题，要求这个东西solvable也太难了。