强化学习-An introduction之 n-step Bootstrapping 个人笔记

Chapter 7 n-step Bootstrapping

什么是bootstrapping？

第四章summary中讲到：That is, they update estimates on the basis of other estimates. We call this general idea bootstrapping。 即在其他估计的基础上更新估计，比如根据其他状态的估计值来更新这个状态的估计值。

这章主要讲如何通过multi-step bootstrapping methods将MC方法的优势和TD方法的优势结合在一起。

1 n-step TD prediction

TD methods -> intermediate method -> Monte Carlo methods：

MC methods用整个序列中观察到的reward和来update value，one-step TD只用了下一步的reward+bootstrapping下一个状态的value。它们是两个极端，一般的n-step TD处于中间。

强化学习-An introduction之 n-step Bootstrapping 个人笔记

MC’s complete return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

one-step return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

two-step return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

n-step return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

state-value learning algorithm for using n-step returns：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

我们看到，n-step return与MC的return区别是，n-step return uses the value function $V_{t + n - 1}$ to correct for the missing rewards beyond $R_{t + n}$ .

n-step TD：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

解释一下，当到t时刻时，我们更新时刻 $τ = t - n + 1$ 的状态的value，即更新前面的state value，而不是t时刻的。

2 n-step Sarsa（on-policy）

n-step Sarsa return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

update rule：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

on-policy n-step Sarsa：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

It can speed up learning compared to one-step methods.

3 n-step Sarsa（off-policy）

与on-policy Sarsa相比，只是多了importance sampling。

n-step Sarsa update：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

强化学习-An introduction之 n-step Bootstrapping 个人笔记

off-policy n-step Sarsa：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

4 n-step Tree Backup Algorithm（off-policy）

off-policy method一般要用到importance sampling，那么不用importance sampling呢？

one-step method有Q-Learning和Expected Sarsa；

multi-step method是我们接下来要讲的——tree-backup algorithm.

我们以下图来讲解tree-backup algorithm的核心思想。

如果我们要更新 $q (S_{t}, A_{t})$ ，需要计算这个state-action pair下的 $G_{t}$ （即reward和），首先需要加上 $R_{t + 1}$ ，然后是下一层是三个state-action pair，对于 $a \neq A_{t + 1}$ 的行动，用采取它们的概率 $π (a | S_{t + 1})$ 乘以它们的value，对于 $a = A_{t + 1}$ ，用概率 $π (A_{t + 1} | S_{t + 1})$ 乘以 $G_{t + 1}$ ， $G_{t + 1}$ 的计算与 $G_{t}$ 相同。

强化学习-An introduction之 n-step Bootstrapping 个人笔记

具体来讲：

one-step tree-backup return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

two-step tree-backup return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

n-step tree-backup return：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

action-value update rule：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

n-step Tree Backup Algorithm：

强化学习-An introduction之 n-step Bootstrapping 个人笔记

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode