这一讲主要在讲policy gradient,
注意,教授经常提到的horizon,就是 , 就是,这个求和的结果是 。(我还不是很明白这个是在干嘛……)
说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。
最后的review保存一下好了
这一讲主要在讲policy gradient,
注意,教授经常提到的horizon,就是 , 就是,这个求和的结果是 。(我还不是很明白这个是在干嘛……)
说句实话好了,这一讲整个我就处于懵逼状态了,什么玩意啊,一直在推导推导,我的个天,怎么这里也有泰勒级数还有拉格朗日,简直是所有的噩梦全都袭来了啊。
最后的review保存一下好了
相关文章: