RL学习笔记-2-马尔可夫决策过程及表格型方法

1 马尔可夫过程 Markov Process, MP

一个状态的下一个状态只取决于当前的状态，与当前状态之前的状态无关。

2 马尔可夫奖励过程 Markov Reward Process, MRP

求解MRPs的迭代方法：

动态规划
蒙特卡洛方法（通过采样）
TD算法：是动态规划和蒙特卡洛方法的集合

（1）利用蒙特卡洛方法求解MRP的价值函数：

RL学习笔记-2-马尔可夫决策过程及表格型方法

（2）利用动态规划的方法，一直迭代贝尔曼方程，最后让它收敛：

RL学习笔记-2-马尔可夫决策过程及表格型方法

3 马尔可夫决策过程 Markov Decision Process, MDP

和MRP相比多了一个decision,多了一个决策的过程。

3.1 MDP里的价值函数

（1）状态-价值函数：

RL学习笔记-2-马尔可夫决策过程及表格型方法

取决于状态和当前状态下采取的策略。策略决定后，对策略进行采样来得到一个期望，就可以计算出它的价值函数。

（2）动作-价值函数，Q函数：

RL学习笔记-2-马尔可夫决策过程及表格型方法

是在某一个状态采取某一个行为，然后有可能得到的return的期望。

（3）????????????和????????????,????之间的关系：

RL学习笔记-2-马尔可夫决策过程及表格型方法

对Q函数中的行为函数进行加和，就可以得到价值函数。

3.2 贝尔曼期望方程

（1）对状态价值函数进行分解，可以得到贝尔曼期望方程：

RL学习笔记-2-马尔可夫决策过程及表格型方法

（2）对Q函数进行同样的分解，得到对于Q函数的贝尔曼期望方程：

RL学习笔记-2-马尔可夫决策过程及表格型方法

贝尔曼期望方程定义了当前状态和未来状态之间的一个关联。

对(1)和(2)做进一步分析，得到：

RL学习笔记-2-马尔可夫决策过程及表格型方法

把(4)插入(3),得到：

RL学习笔记-2-马尔可夫决策过程及表格型方法

这象征了当前状态的价值和未来状态的价值的关联。

把(3)插入(4),得到：

RL学习笔记-2-马尔可夫决策过程及表格型方法

这象征了当前的Q函数和未来时刻的Q函数的一个关联。

3.3 Policy iteration 和 Value iteration

（1）Policy iteration

Policy iteration 由两部分组成：policy evaluation 和 policy improvement。这个过程分成了两步，就首先对于当前已经搜索到的策略函数，然后对它进行一个估值，得到估值过后，把 Q 函数算出来，我们进一步进行改进。

（2）Value iteration

直接把 Bellman Optimality Equation 拿进来，然后直接去寻找最佳的 value function，没有 policy function 在这里面，当我们把这个optimal value function 算出来过后，那可以在最后再执行一步这个提取过程，就是最佳策略提取过程。这样就可以把它的最佳策略抽取过来。