1. Markov Processes马尔可夫过程

1.1 Markov Property马尔可夫性

在了解马尔可夫过程之前,我们首先得了解什么是马尔可夫性,马尔可夫性其实是一种假设,“未来的一切仅与现在有关,独立于过去的状态”。

关于马尔可夫性,我们给出了如下的Definition:
马尔可夫Markov决策过程
从上述的式子可以看出,t+1时刻的状态包含了1,…,t时刻状态的全部历史信息,并且当我们知道t时刻的状态后,我们只关注于环境的信息,而不用管之前所有状态的信息,这就是马尔可夫性,当论文中说某一状态或其他信息符合马尔可夫性时,我们也应当联想到这个性质。

1.2 State Transition Matrix状态传输矩阵

马尔可夫Markov决策过程

1.3 Markov Chain马尔可夫链

马尔可夫Markov决策过程
马尔可夫Markov决策过程

2. Markov Reward Process马尔可夫奖励过程

2.1 MRP

简单来说,马尔可夫奖励过程就是含有奖励的马尔可夫链,要想理解MRP方程的含义,我们就得弄清楚奖励函数的由来,我们可以把奖励表述为进入某一状态后收获的奖励。奖励函数如下所示:
马尔可夫Markov决策过程

2.2 Return回报

马尔可夫Markov决策过程

2.3 Value Function价值函数

马尔可夫Markov决策过程

2.4 Bellman Equation贝尔曼方程

马尔可夫Markov决策过程

3. Markov Decision Process马尔可夫决策过程

3.1 MDP

下面终于讲到了今天的重头戏,MDP模型,如模型标题的意思所言,MDP就是具有决策状态的马尔可夫奖励过程。这里我们直接给出了马尔可夫决策过程的定义:
马尔可夫Markov决策过程

3.2 Policies策略

马尔可夫Markov决策过程

3.3 Policy based Value Function基于策略的价值函数

马尔可夫Markov决策过程

3.4 Bellman Expectation Equation贝尔曼期望方程

马尔可夫Markov决策过程
马尔可夫Markov决策过程
马尔可夫Markov决策过程

3.5 Optimal Value Function最优价值函数

马尔可夫Markov决策过程

3.6 Theorem of MDP定理

马尔可夫Markov决策过程

3.7 Finding an Optimal Policy寻找最优策略

马尔可夫Markov决策过程

3.8 Bellman Optimality Equation贝尔曼最优方程

马尔可夫Markov决策过程
马尔可夫Markov决策过程

3.9 Solving the Bellman Optimality Equation求解贝尔曼最优方程

贝尔曼最优方程是非线性的,通常而言没有固定的解法,有很多著名的迭代解法:

  • Value Iteration 价值迭代
  • Policy Iteration 策略迭代
  • Q-learning
  • Sarsa

这个可以大家之后去多了解了解。

https://zhuanlan.zhihu.com/p/271221558

相关文章:

  • 2021-08-01
  • 2018-10-28
  • 2021-06-01
  • 2021-11-19
  • 2021-10-17
  • 2021-09-02
  • 2021-09-18
猜你喜欢
  • 2021-10-29
  • 2021-06-07
  • 2021-09-12
  • 2021-06-26
  • 2022-01-01
  • 2021-04-02
相关资源
相似解决方案