RL强化学习基础课 class.3

在MDP（马尔可夫）中的决策过程：

马尔可夫链 --> 马尔可夫奖励过程 --> 马尔可夫决策过程
在马尔可夫策略中的决策评价 （就是给定了一个决策过后，如何计算其价值函数）
马尔可夫中的控制：策略迭代和值迭代

RL强化学习基础课 class.3

马尔可夫模型可以对现实世界问题建模，是描述强化学习的一个通用框架
在MDP中，环境是全部可以观测（fully observable）
- 最优控制主要会被处理为连续的MDPS问题
- 部分可以观测的问题，也可以被转化成一个MDPS的问题

马尔可夫抽象：

ht={s1,s2,s3,s4...,st}
状态st是马尔可夫决策的过程：
1. p(st+1|st) = p(st+1|ht)
2. p(st+1|st,at)=p(st+1|ht,at)
考虑到现在的状态，未来是独立于过去的

马尔可夫链：

RL强化学习基础课 class.3

马尔可夫奖励过程：（MRP）

马尔可夫奖励过程=马尔可夫链+奖励
对于MRP的定义：
- S是对于状态的集合
- P是转移和动态模型， P（st+1=s'｜st=s）
- R是一个奖励函数
- 折扣因子 y取值【0～1】
如果状态数有限，R可以是一个向量

价值函数中相关定义：

水平线：在每一阶段中最大时间步长的数量；可以是无限的，否则叫有限的马尔可夫奖励
奖励（Return）：是一个对于折扣奖励的总和
state value function Vt（s）for a MDPS
- 期望的奖励return 对于state下的 t
- 对未来可能获得的价值在当前价值下的表现
- 蒙特卡罗采样：在一个状态下，计算其不同路线的value，求平均值即为该状态的value
- MRP在满足贝尔曼方程的情况下：
- 通过迭代的算法用来计算MDPS中的Value（大规模）
  - 动态规划
  - 蒙特卡洛采样
  - TD learning （temperal difference learning）结合了动态规划和蒙特卡洛采样的特点

马尔可夫决策过程：（MDP）

MDP是在MRP基础上增加了一个决策过程（decision）
在MRP定义的基础上，增加了actions（一个有限的一系列动作的集合）
MDP定义成一个元组：（S,A,P,R,y）
Policy in MDP
- 决定每个state下要采取什么action
- 马尔可夫决策过程到MRP的转换（maxium）
  - Policy evaluation：
    - 已知马尔可夫过程和其中策略，计算价值函数的过程
    - 也可以称为价值预测

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode