马尔可夫决策问题

1.在解释马尔可夫决策问题之前，我们首先应该知道马尔可夫过程（Markov Process），简单理解就是未来的行为只取决于现在的状态，而与之前的状态无关。设是t时刻的状态，那么当满足条件：

马尔可夫决策问题时，我们说状态具有马尔可夫性质。

我们讨论一个简单问题时，状态的数目是有限的，不妨设为n个。从而给出状态转移矩阵的定义：

马尔可夫决策问题 ,这个矩阵中的元素aij的值代表从从状态i到状态j的概率。

2.基于马尔可夫过程，我们引入奖励（reward）和折扣因子，问题定义为一个tuple 马尔可夫决策问题 ,在状态s时，我们可以收获的奖励为.此处表示可到达的下一个状态的奖励之和的作用为了能够使得问题能够收敛。从而我们可以知道在某一个状态可以得到的奖励

3.在此之前，我们都没有考虑在某一个状态时如何采取行动，显而易见，在特定的一个状态，可以采取的动作是多样的且有限的，因此我们引入一个新的元素，活动集A，从而引出马尔科夫决策问题tuple 马尔可夫决策问题 .

此时，我们有马尔可夫决策问题表示在状态s采取动作a到达状态s'的概率，表示在状态s下采用动作a能够获得的奖励。

我们给定某一个策略马尔可夫决策问题 ,从而表示在状态s下采用动作a的概率。我们给出状态值函数：

马尔可夫决策问题

动作值函数：

马尔可夫决策问题

基于上面的两个式子，我们给出贝尔曼方程：

马尔可夫决策问题

马尔可夫决策问题

同样的，我们可以得到马尔可夫决策问题

马尔可夫决策问题

在这个图中，我们简单的往前看两步，可以看到，马尔可夫决策问题，

将后者带入前式可以得到马尔可夫决策问题 .此处的V，r都是列向量

马尔可夫决策问题则是状态转移矩阵。我们将这个式子移项可得。

通过以上的方法，我们可以计算出每个状态的值函数，我们的任务是在问题中找到某一条路径，使得最后收获的值函数收获最大

参考文献：

《入浅出强化学习原理》，郭宪，方勇纯编著，电子工业出版社，2018.1

相关文章：

2021-08-29
2021-10-07
2021-06-01
2021-11-27
2021-11-19
2021-12-07
2022-01-04
2022-01-13

猜你喜欢

2021-09-04
2022-02-17
2021-06-26
2022-01-01
2021-04-02

相关资源

下载 2021-06-05
下载 2023-02-19
下载 2023-03-10

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode