本文以这篇文章为纲,以问答的形式对其进行补足。

1.policy gradient后面为什么要用log

[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C

2.policy gradient括号中的第一项那一大坨是个啥

它其实很单纯,就是状态s选择t后直到episode结束所得的但步reward的加权和。这个用[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C表示

3.为什么要对G采样??

首先G是一个RV(随机变量),虽然它有固定的分布概率,但是它的取值是随机的,这里是要估计它的期望,也就是要用:概率*数值的方法来计算,上面的概率,就是要通过采样的方式进行啦~若采样的次数不够多,那么得到的Q也就不准,也不稳,而实际上就是采样次数不多

4.使用Advantage Actor-Critic的时候说两个NN共享前几层,这里怎么有两个NN?

[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C

如上图,那个式子先看最后一项,是对状态[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C下采取行动[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C的概率进行修改,这里就涉及到了policy gradient中的policy(也称actor) [强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C,这是第一个NN。

在引入Q-learning后,引入了V,这个V也是通过NN求得的,这是第二个NN。

5.下图的说明中,有正则项和Entropy,哪来的正则项,entropy指的是什么?

[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C

 首先明确的是,正则项是用来引入exploration的,而entropy是正则项的依据,在其他地方没有提到entropy

期望a的entropy大一点,也就是不同a的概率相近一点,这样就是鼓励探索了,不要一家独大!

相关文章: