作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/
上两篇博客已经介绍了随笔分类 - Reinforcement Learning。
1. 采样法(Sampling Method)/蒙特卡罗方法(Monte Carlo Method)
2. 重要性采样(Importance Sampling)
3. 重新思考TRPO与PPO
4. 参考文献
[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 高等教育出版社, 2011.
[2] 邱锡鹏,神经网络与深度学习,机械工业出版社,https://nndl.github.io/, 2020.
[3] 李宏毅, 强化学习课程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.