了解强化学习,我们首先得知道Bellman方程:
其可表示为递归形式的状态价值方程形式:
https://blog.csdn.net/weixin_43522964/article/details/105258065
强化学习无模型与基于模型区别
一句话,有模型与无模型的区别,在于是否已知当前状态、动作转移至下一状态及获得奖励的分布,若能直接提供给强化学习算法,则称之为基于模型。
参考至网页中的分析。

相关文章:

  • 2022-12-23
  • 2021-08-18
  • 2021-12-07
  • 2021-05-26
  • 2021-05-25
  • 2019-02-15
  • 2022-01-09
猜你喜欢
  • 2021-04-17
  • 2021-12-18
  • 2022-12-23
  • 2021-04-08
  • 2021-12-29
  • 2021-11-26
  • 2021-12-12
相关资源
相似解决方案