1 马尔可夫过程 Markov Process, MP
一个状态的下一个状态只取决于当前的状态,与当前状态之前的状态无关。
2 马尔可夫奖励过程 Markov Reward Process, MRP
求解MRPs的迭代方法:
- 动态规划
- 蒙特卡洛方法(通过采样)
- TD算法:是动态规划和蒙特卡洛方法的集合
(1)利用蒙特卡洛方法求解MRP的价值函数:
(2)利用动态规划的方法,一直迭代贝尔曼方程,最后让它收敛:
3 马尔可夫决策过程 Markov Decision Process, MDP
和MRP相比多了一个decision,多了一个决策的过程。
3.1 MDP里的价值函数
(1)状态-价值函数:
取决于状态和当前状态下采取的策略。策略决定后,对策略进行采样来得到一个期望,就可以计算出它的价值函数。
(2)动作-价值函数,Q函数:
是在某一个状态采取某一个行为,然后有可能得到的return的期望。
(3)????????????和????????????,????之间的关系:
对Q函数中的行为函数进行加和,就可以得到价值函数。
3.2 贝尔曼期望方程
(1)对状态价值函数进行分解,可以得到贝尔曼期望方程:
(2)对Q函数进行同样的分解,得到对于Q函数的贝尔曼期望方程:
贝尔曼期望方程定义了当前状态和未来状态之间的一个关联。
对(1)和(2)做进一步分析,得到:
把(4)插入(3),得到:
这象征了当前状态的价值和未来状态的价值的关联。
把(3)插入(4),得到:
这象征了当前的Q函数和未来时刻的Q函数的一个关联。
3.3 Policy iteration 和 Value iteration
(1)Policy iteration
Policy iteration 由两部分组成:policy evaluation 和 policy improvement。这个过程分成了两步,就首先对于当前已经搜索到的策略函数,然后对它进行一个估值,得到估值过后,把 Q 函数算出来,我们进一步进行改进。
(2)Value iteration
直接把 Bellman Optimality Equation 拿进来,然后直接去寻找最佳的 value function,没有 policy function 在这里面,当我们把这个optimal value function 算出来过后,那可以在最后再执行一步这个提取过程,就是最佳策略提取过程。这样就可以把它的最佳策略抽取过来。