在MDP(马尔可夫)中的决策过程:

  1. 马尔可夫链 --> 马尔可夫奖励过程 --> 马尔可夫决策过程
  2. 在马尔可夫策略中的决策评价 (就是给定了一个决策过后,如何计算其价值函数)
  3. 马尔可夫中的控制:策略迭代 和 值迭代

RL强化学习基础课 class.3

  • 马尔可夫模型可以对现实世界问题建模,是描述强化学习的一个通用框架
  • 在MDP中,环境是全部可以观测(fully observable)
    •  最优控制主要会被处理为连续的MDPS问题
    • 部分可以观测的问题,也可以被转化成一个MDPS的问题

马尔可夫抽象:

  1. ht={s1,s2,s3,s4...,st}
  2. 状态st是马尔可夫决策的过程:
    1. p(st+1|st) = p(st+1|ht)
    2. p(st+1|st,at)=p(st+1|ht,at)
  3. 考虑到现在的状态,未来是独立于过去的

马尔可夫链:

RL强化学习基础课 class.3RL强化学习基础课 class.3

马尔可夫奖励过程:(MRP)

  • 马尔可夫奖励过程=马尔可夫链+奖励
  • 对于MRP的定义:
    • S是对于状态的集合
    • P是转移和动态模型, P(st+1=s'|st=s)
    • R是一个奖励函数
    • 折扣因子 y取值【0~1】
  • 如果状态数有限,R可以是一个向量

价值函数中相关定义:

  • 水平线:在每一阶段中最大时间步长的数量;可以是无限的,否则叫有限的马尔可夫奖励
  • 奖励(Return):是一个对于折扣奖励的总和   RL强化学习基础课 class.3
  • state value function Vt(s)for a MDPS
    • 期望的奖励return 对于state下的 tRL强化学习基础课 class.3
    • 对未来可能获得的价值在当前价值下的表现
    • 蒙特卡罗采样:在一个状态下,计算其不同路线的value,求平均值即为该状态的value
    • MRP在满足贝尔曼方程的情况下:
    • RL强化学习基础课 class.3
    • 通过迭代的算法用来计算MDPS中的Value(大规模)
      • 动态规划
      • 蒙特卡洛 采样
      • TD learning (temperal difference learning) 结合了动态规划和蒙特卡洛采样的特点

马尔可夫决策过程:(MDP)

  • MDP是在MRP基础上增加了一个决策过程(decision)
  • 在MRP定义的基础上,增加了actions(一个有限的一系列动作的集合)
  • MDP定义成一个元组:(S,A,P,R,y)
  • Policy in MDP
    • 决定每个state下要采取什么action
    • RL强化学习基础课 class.3
    • 马尔可夫决策过程到MRP的转换(maxium)
      • RL强化学习基础课 class.3
      • RL强化学习基础课 class.3
      • Policy evaluation:
        • 已知马尔可夫过程和其中策略,计算价值函数的过程
        • 也可以称为价值预测

 

 

相关文章: