作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

    上两篇博客已经介绍了随笔分类 - Reinforcement Learning

1. 采样法(Sampling Method)/蒙特卡罗方法(Monte Carlo Method)

重要性采样(Importance Sampling)——TRPO与PPO的补充
    




信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

2. 重要性采样(Importance Sampling)

重要性采样(Importance Sampling)——TRPO与PPO的补充
    




信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

重要性采样(Importance Sampling)——TRPO与PPO的补充
    




信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

3. 重新思考TRPO与PPO

重要性采样(Importance Sampling)——TRPO与PPO的补充
    




信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

4. 参考文献

[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 高等教育出版社, 2011.
[2] 邱锡鹏,神经网络与深度学习,机械工业出版社,https://nndl.github.io/, 2020.
[3] 李宏毅, 强化学习课程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.

相关文章: