定义


马尔可夫决策过程
 

一个很简单的只有3个状态和2个动作的MDP例子。



一个马尔可夫决策过程是一个4 - 元组 ,其中

                      S是状态的有限集合,

                      A是动作的有限集合(或者,As是处于状态s下可用的一组动作的有限集合),

                     表示 t时刻的动作 a 将导致马尔可夫过程由状态 s 在t+1 时刻转变到状态 s' 的概率 。

                      Ra(s,s') 表示以概率Pa(s,s')从状态 s 转变到状态 s' 后收到的即时奖励(或预计即时奖励)。

(马尔可夫决策过程理论实际上并不需要 S 或 A 这两个集合是有限的,但下面的基本算法假定它们是有限的。)

转载自http://blog.csdn.net/foxeatapple/article/details/6008686

 

相关文章:

  • 2021-06-01
  • 2020-06-09
  • 2021-12-28
  • 2018-11-13
  • 2019-07-26
  • 2021-12-23
  • 2021-09-18
  • 2018-06-04
猜你喜欢
  • 2018-10-28
  • 2021-01-03
  • 2021-08-27
  • 2021-08-14
  • 2021-10-18
  • 2019-11-12
  • 2021-10-29
相关资源
相似解决方案