这一讲主要在讲policy gradient,

注意,教授经常提到的horizon,就是11γ1\over1-\gamma , 就是tγt  (t starts from 0)\sum_t\gamma^t~~(t~starts~from~0),这个求和的结果是11γ1\over1-\gamma 。(我还不是很明白这个是在干嘛……)

说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。

最后的review保存一下好了
DRL(六)——高级策略梯度

相关文章: