在MDP(马尔可夫)中的决策过程:
- 马尔可夫链 --> 马尔可夫奖励过程 --> 马尔可夫决策过程
- 在马尔可夫策略中的决策评价 (就是给定了一个决策过后,如何计算其价值函数)
- 马尔可夫中的控制:策略迭代 和 值迭代
- 马尔可夫模型可以对现实世界问题建模,是描述强化学习的一个通用框架
- 在MDP中,环境是全部可以观测(fully observable)
- 最优控制主要会被处理为连续的MDPS问题
- 部分可以观测的问题,也可以被转化成一个MDPS的问题
马尔可夫抽象:
- ht={s1,s2,s3,s4...,st}
- 状态st是马尔可夫决策的过程:
- p(st+1|st) = p(st+1|ht)
- p(st+1|st,at)=p(st+1|ht,at)
- 考虑到现在的状态,未来是独立于过去的
马尔可夫链:
马尔可夫奖励过程:(MRP)
- 马尔可夫奖励过程=马尔可夫链+奖励
- 对于MRP的定义:
- S是对于状态的集合
- P是转移和动态模型, P(st+1=s'|st=s)
- R是一个奖励函数
- 折扣因子 y取值【0~1】
- 如果状态数有限,R可以是一个向量
价值函数中相关定义:
- 水平线:在每一阶段中最大时间步长的数量;可以是无限的,否则叫有限的马尔可夫奖励
- 奖励(Return):是一个对于折扣奖励的总和
- state value function Vt(s)for a MDPS
- 期望的奖励return 对于state下的 t
- 对未来可能获得的价值在当前价值下的表现
- 蒙特卡罗采样:在一个状态下,计算其不同路线的value,求平均值即为该状态的value
- MRP在满足贝尔曼方程的情况下:
- 通过迭代的算法用来计算MDPS中的Value(大规模)
- 动态规划
- 蒙特卡洛 采样
- TD learning (temperal difference learning) 结合了动态规划和蒙特卡洛采样的特点
- 期望的奖励return 对于state下的 t
马尔可夫决策过程:(MDP)
- MDP是在MRP基础上增加了一个决策过程(decision)
- 在MRP定义的基础上,增加了actions(一个有限的一系列动作的集合)
- MDP定义成一个元组:(S,A,P,R,y)
- Policy in MDP
- 决定每个state下要采取什么action
- 马尔可夫决策过程到MRP的转换(maxium)
- Policy evaluation:
- 已知马尔可夫过程和其中策略,计算价值函数的过程
- 也可以称为价值预测