[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C

本文以这篇文章为纲，以问答的形式对其进行补足。

它其实很单纯，就是状态s选择t后直到episode结束所得的但步reward的加权和。这个用 [强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C 表示

首先G是一个RV（随机变量），虽然它有固定的分布概率，但是它的取值是随机的，这里是要估计它的期望，也就是要用：概率*数值的方法来计算，上面的概率，就是要通过采样的方式进行啦~若采样的次数不够多，那么得到的Q也就不准，也不稳，而实际上就是采样次数不多

[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C

如上图，那个式子先看最后一项，是对状态 [强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C 下采取行动的概率进行修改，这里就涉及到了policy gradient中的policy（也称actor），这是第一个NN。

在引入Q-learning后，引入了V，这个V也是通过NN求得的，这是第二个NN。

[强化学习]易混知识勘误_from李宏毅P4——Actor-Critic/A3C

首先明确的是，正则项是用来引入exploration的，而entropy是正则项的依据，在其他地方没有提到entropy

期望a的entropy大一点，也就是不同a的概率相近一点，这样就是鼓励探索了，不要一家独大！