强化学习：Actor-Critic 总是比策略梯度方法更好吗？

【问题标题】：Reinforcement learning: Is Actor-Critic alwayse better than Policy gradient method?强化学习：Actor-Critic 总是比策略梯度方法更好吗？
【发布时间】：2020-02-10 13:59:20
【问题描述】：

我是强化学习的新手，我想尝试编写自己的小型库，我想知道是否存在任何实施策略梯度的理由。

谢谢！！

【问题讨论】：

标签： machine-learning artificial-intelligence reinforcement-learning

【解决方案1】：

Actor-critic 是一种策略梯度算法。除非您使用的术语与我习惯的不同。

在策略梯度算法中，我们将策略参数化为一些参数，根据所采取的动作找到策略的梯度，然后将策略参数更新为梯度。

演员评论家正是这样做的。

在 actor-critic 中，价值函数也被计算并影响更新。但是，它仍然是一种策略梯度算法。

【讨论】：