DRL（六）——高级策略梯度

这一讲主要在讲policy gradient，

注意，教授经常提到的horizon，就是 $1\over1-\gamma$ ，就是 $\sum_t\gamma^t~~(t~starts~from~0)$ ，这个求和的结果是 $1\over1-\gamma$ 。（我还不是很明白这个是在干嘛……）

说句实话好了，这一讲整个我就处于懵逼状态了，什么玩意啊，一直在推导推导，我的个天，怎么这里也有泰勒级数还有拉格朗日，简直是所有的噩梦全都袭来了啊。

最后的review保存一下好了
DRL（六）——高级策略梯度