本文以这篇文章为纲,以问答的形式对其进行补足。
1.policy gradient后面为什么要用log
2.policy gradient括号中的第一项那一大坨是个啥
它其实很单纯,就是状态s选择t后直到episode结束所得的但步reward的加权和。这个用表示
3.为什么要对G采样??
首先G是一个RV(随机变量),虽然它有固定的分布概率,但是它的取值是随机的,这里是要估计它的期望,也就是要用:概率*数值的方法来计算,上面的概率,就是要通过采样的方式进行啦~若采样的次数不够多,那么得到的Q也就不准,也不稳,而实际上就是采样次数不多
4.使用Advantage Actor-Critic的时候说两个NN共享前几层,这里怎么有两个NN?
如上图,那个式子先看最后一项,是对状态下采取行动
的概率进行修改,这里就涉及到了policy gradient中的policy(也称actor)
,这是第一个NN。
在引入Q-learning后,引入了V,这个V也是通过NN求得的,这是第二个NN。
5.下图的说明中,有正则项和Entropy,哪来的正则项,entropy指的是什么?
首先明确的是,正则项是用来引入exploration的,而entropy是正则项的依据,在其他地方没有提到entropy
期望a的entropy大一点,也就是不同a的概率相近一点,这样就是鼓励探索了,不要一家独大!