1 马尔可夫过程 Markov Process, MP

一个状态的下一个状态只取决于当前的状态,与当前状态之前的状态无关。

 

2 马尔可夫奖励过程 Markov Reward Process, MRP

求解MRPs的迭代方法:

  • 动态规划
  • 蒙特卡洛方法(通过采样)
  • TD算法:是动态规划和蒙特卡洛方法的集合

(1)利用蒙特卡洛方法求解MRP的价值函数:

RL学习笔记-2-马尔可夫决策过程及表格型方法

(2)利用动态规划的方法,一直迭代贝尔曼方程,最后让它收敛:

RL学习笔记-2-马尔可夫决策过程及表格型方法

 

3 马尔可夫决策过程 Markov Decision Process, MDP

和MRP相比多了一个decision,多了一个决策的过程。

3.1 MDP里的价值函数

(1)状态-价值函数:

RL学习笔记-2-马尔可夫决策过程及表格型方法

取决于状态和当前状态下采取的策略。策略决定后,对策略进行采样来得到一个期望,就可以计算出它的价值函数。

(2)动作-价值函数,Q函数:

RL学习笔记-2-马尔可夫决策过程及表格型方法

是在某一个状态采取某一个行为,然后有可能得到的return的期望。

(3)????????????和????????????,????之间的关系:

RL学习笔记-2-马尔可夫决策过程及表格型方法

对Q函数中的行为函数进行加和,就可以得到价值函数。

3.2 贝尔曼期望方程

(1)对状态价值函数进行分解,可以得到贝尔曼期望方程:

RL学习笔记-2-马尔可夫决策过程及表格型方法

(2)对Q函数进行同样的分解,得到对于Q函数的贝尔曼期望方程:

RL学习笔记-2-马尔可夫决策过程及表格型方法

贝尔曼期望方程定义了当前状态和未来状态之间的一个关联。

对(1)和(2)做进一步分析,得到:

RL学习笔记-2-马尔可夫决策过程及表格型方法

RL学习笔记-2-马尔可夫决策过程及表格型方法

把(4)插入(3),得到:

RL学习笔记-2-马尔可夫决策过程及表格型方法

这象征了当前状态的价值和未来状态的价值的关联。

把(3)插入(4),得到:

RL学习笔记-2-马尔可夫决策过程及表格型方法

这象征了当前的Q函数和未来时刻的Q函数的一个关联。

3.3 Policy iteration 和 Value iteration

(1)Policy iteration

Policy iteration 由两部分组成:policy evaluation 和 policy improvement。这个过程分成了两步,就首先对于当前已经搜索到的策略函数,然后对它进行一个估值,得到估值过后,把 Q 函数算出来,我们进一步进行改进。

(2)Value iteration

直接把 Bellman Optimality Equation 拿进来,然后直接去寻找最佳的 value function,没有 policy function 在这里面,当我们把这个optimal value function 算出来过后,那可以在最后再执行一步这个提取过程,就是最佳策略提取过程。这样就可以把它的最佳策略抽取过来。

相关文章:

  • 2021-06-24
  • 2021-07-13
  • 2021-06-26
  • 2021-11-19
  • 2022-01-01
  • 2021-04-02
  • 2021-08-29
猜你喜欢
  • 2021-11-24
  • 2021-07-03
  • 2021-05-06
  • 2022-01-04
  • 2022-02-17
  • 2021-06-09
  • 2021-07-04
相关资源
相似解决方案