【问题标题】:Reinforcement learning: Is Actor-Critic alwayse better than Policy gradient method?强化学习:Actor-Critic 总是比策略梯度方法更好吗?
【发布时间】:2020-02-10 13:59:20
【问题描述】:

我是强化学习的新手,我想尝试编写自己的小型库,我想知道是否存在任何实施策略梯度的理由。

谢谢!!

【问题讨论】:

    标签: machine-learning artificial-intelligence reinforcement-learning


    【解决方案1】:

    Actor-critic 是一种策略梯度算法。除非您使用的术语与我习惯的不同。

    在策略梯度算法中,我们将策略参数化为一些参数,根据所采取的动作找到策略的梯度,然后将策略参数更新为梯度。

    演员评论家正是这样做的。

    在 actor-critic 中,价值函数也被计算并影响更新。但是,它仍然是一种策略梯度算法。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-12-08
      • 1970-01-01
      • 2021-02-26
      • 1970-01-01
      • 2023-03-19
      • 2018-02-25
      • 2019-04-17
      • 1970-01-01
      相关资源
      最近更新 更多