目录
【强化学习】task2 马尔科夫决策过程
待补充。。。。。

第二章

马尔科夫决策是强化学习中最常见的一种框架

【强化学习】task2 马尔科夫决策过程

2.1 马尔科夫链

一个状态满足马尔科夫转移指的是对于一个状态只取决于它前一个的状态而与其他状态无关
【强化学习】task2 马尔科夫决策过程
图中描述了一个状态到达其他状态的概率【强化学习】task2 马尔科夫决策过程
对于上面这样的一个图可以用状态转移矩阵来表示
每一行代表了从一个节点到达其他节点的概率
【强化学习】task2 马尔科夫决策过程
马尔科夫例子【强化学习】task2 马尔科夫决策过程

2.2 马尔科夫奖励过程

马尔科夫奖励过程=马尔科夫链+马尔科夫奖励过程
多了奖励函数和discount factor
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
为什么需要discount factor
【强化学习】task2 马尔科夫决策过程
计算MRP例子,只有第一个状态和第七个状态有奖励
注意计算时候的概率不同
【强化学习】task2 马尔科夫决策过程
bellman equation

【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
写成矩阵的形式,注意复杂度为N的三次方,所以只能适合小的数据
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程

2.3 马尔科夫决策过程

注意红字
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程

2.4 马尔科夫链马尔科夫奖励马尔科夫决策区别

左边是马尔科夫链 右边是马尔科夫决策过程
【强化学习】task2 马尔科夫决策过程

相关文章:

  • 2021-05-02
  • 2021-10-01
  • 2021-10-02
  • 2022-01-07
  • 2021-07-23
  • 2021-12-25
  • 2021-11-03
猜你喜欢
  • 2021-04-06
  • 2021-09-09
  • 2021-04-26
  • 2021-10-03
  • 2021-07-05
  • 2021-08-06
  • 2021-05-03
相关资源
相似解决方案