重要性采样(Importance Sampling)——TRPO与PPO的补充信赖域策略优化(Trust Region Policy Optimization, TRPO)近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

作者：凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

重要性采样(Importance Sampling)——TRPO与PPO的补充

信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

重要性采样(Importance Sampling)——TRPO与PPO的补充

信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

重要性采样(Importance Sampling)——TRPO与PPO的补充

信赖域策略优化(Trust Region Policy Optimization, TRPO)
近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)

[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 高等教育出版社, 2011.
[2] 邱锡鹏，神经网络与深度学习，机械工业出版社，https://nndl.github.io/, 2020.
[3] 李宏毅, 强化学习课程, https://www.bilibili.com/video/BV1UE411G78S?spm_id_from=333.999.0.0, 2020.