1.在解释马尔可夫决策问题之前,我们首先应该知道马尔可夫过程(Markov Process),简单理解就是未来的行为只取决于现在的状态,而与之前的状态无关。设马尔可夫决策问题是t时刻的状态,那么当满足条件:

马尔可夫决策问题时,我们说状态马尔可夫决策问题具有马尔可夫性质

我们讨论一个简单问题时,状态的数目是有限的,不妨设为n个。从而给出状态转移矩阵的定义:

马尔可夫决策问题马尔可夫决策问题马尔可夫决策问题马尔可夫决策问题,这个矩阵中的元素aij的值代表从从状态i到状态j的概率。

2.基于马尔可夫过程,我们引入奖励马尔可夫决策问题(reward)和折扣因子马尔可夫决策问题,问题定义为一个tuple马尔可夫决策问题,在状态s时,我们可以收获的奖励为马尔可夫决策问题.此处马尔可夫决策问题表示可到达的下一个状态的奖励之和马尔可夫决策问题的作用为了能够使得问题能够收敛。从而我们可以知道在某一个状态可以得到的奖励马尔可夫决策问题

3.在此之前,我们都没有考虑在某一个状态时如何采取行动,显而易见,在特定的一个状态,可以采取的动作是多样的且有限的,因此我们引入一个新的元素,活动集A,从而引出马尔科夫决策问题tuple马尔可夫决策问题.

此时,我们有马尔可夫决策问题表示在状态s采取动作a到达状态s'的概率,马尔可夫决策问题表示在状态s下采用动作a能够获得的奖励。

我们给定某一个策略马尔可夫决策问题,从而马尔可夫决策问题表示在状态s下采用动作a的概率。我们给出状态值函数:

马尔可夫决策问题 

动作值函数:

马尔可夫决策问题

基于上面的两个式子,我们给出贝尔曼方程:

马尔可夫决策问题

           马尔可夫决策问题

同样的,我们可以得到马尔可夫决策问题

马尔可夫决策问题

在这个图中,我们简单的往前看两步,可以看到,马尔可夫决策问题马尔可夫决策问题

将后者带入前式可以得到马尔可夫决策问题.此处的V,r都是列向量

   马尔可夫决策问题则是状态转移矩阵。我们将这个式子移项可得 马尔可夫决策问题

通过以上的方法,我们可以计算出每个状态的值函数,我们的任务是在问题中找到某一条路径,使得最后收获的值函数收获最大

 

参考文献:

《入浅出强化学习原理》,郭宪,方勇纯编著,电子工业出版社,2018.1

 

 

 

 

 

 

 

 

 

 

相关文章:

  • 2021-08-29
  • 2021-10-07
  • 2021-06-01
  • 2021-11-27
  • 2021-11-19
  • 2021-12-07
  • 2022-01-04
  • 2022-01-13
猜你喜欢
  • 2021-09-04
  • 2022-02-17
  • 2021-06-26
  • 2022-01-01
  • 2021-04-02
相关资源
相似解决方案