policy gradient 是一种基于  整个episode更新的算法,它直接对policy进行更新,能够适应连续的动作空间

算法伪代码

policy gradientss 强化学习 

log(Policy(s,a))是更新的幅度,Vt是表示这个更新是好还是坏

相关文章: