马尔可夫Markov决策过程

1. Markov Processes马尔可夫过程

1.1 Markov Property马尔可夫性

在了解马尔可夫过程之前，我们首先得了解什么是马尔可夫性，马尔可夫性其实是一种假设，“未来的一切仅与现在有关，独立于过去的状态”。

关于马尔可夫性，我们给出了如下的Definition：
马尔可夫Markov决策过程
从上述的式子可以看出，t+1时刻的状态包含了1,…,t时刻状态的全部历史信息，并且当我们知道t时刻的状态后，我们只关注于环境的信息，而不用管之前所有状态的信息，这就是马尔可夫性，当论文中说某一状态或其他信息符合马尔可夫性时，我们也应当联想到这个性质。

1.2 State Transition Matrix状态传输矩阵

马尔可夫Markov决策过程

1.3 Markov Chain马尔可夫链

马尔可夫Markov决策过程

2. Markov Reward Process马尔可夫奖励过程

2.1 MRP

简单来说，马尔可夫奖励过程就是含有奖励的马尔可夫链，要想理解MRP方程的含义，我们就得弄清楚奖励函数的由来，我们可以把奖励表述为进入某一状态后收获的奖励。奖励函数如下所示：
马尔可夫Markov决策过程

2.2 Return回报

马尔可夫Markov决策过程

2.3 Value Function价值函数

马尔可夫Markov决策过程

2.4 Bellman Equation贝尔曼方程

马尔可夫Markov决策过程

3. Markov Decision Process马尔可夫决策过程

3.1 MDP

下面终于讲到了今天的重头戏，MDP模型，如模型标题的意思所言，MDP就是具有决策状态的马尔可夫奖励过程。这里我们直接给出了马尔可夫决策过程的定义：
马尔可夫Markov决策过程

3.2 Policies策略

马尔可夫Markov决策过程

3.3 Policy based Value Function基于策略的价值函数

马尔可夫Markov决策过程

3.4 Bellman Expectation Equation贝尔曼期望方程

马尔可夫Markov决策过程

3.5 Optimal Value Function最优价值函数

马尔可夫Markov决策过程

3.6 Theorem of MDP定理

马尔可夫Markov决策过程

3.7 Finding an Optimal Policy寻找最优策略

马尔可夫Markov决策过程

3.8 Bellman Optimality Equation贝尔曼最优方程

马尔可夫Markov决策过程

3.9 Solving the Bellman Optimality Equation求解贝尔曼最优方程

贝尔曼最优方程是非线性的，通常而言没有固定的解法，有很多著名的迭代解法：

Value Iteration 价值迭代
Policy Iteration 策略迭代
Q-learning
Sarsa

这个可以大家之后去多了解了解。

https://zhuanlan.zhihu.com/p/271221558

相关文章：

2021-04-02
2021-10-07
2021-08-01
2021-06-01
2021-11-27
2021-11-19
2021-12-07

猜你喜欢

2021-06-07
2021-10-29
2022-02-17
2021-09-12
2021-06-26
2022-01-01

相关资源

下载 2023-01-27
下载 2023-02-03
下载 2022-12-16

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode