Chapter 7 n-step Bootstrapping

什么是bootstrapping?

第四章summary中讲到:That is, they update estimates on the basis of other estimates. We call this general idea bootstrapping。 即在其他估计的基础上更新估计,比如根据其他状态的估计值来更新这个状态的估计值。

这章主要讲如何通过multi-step bootstrapping methods将MC方法的优势和TD方法的优势结合在一起。

1 n-step TD prediction

TD methods -> intermediate method -> Monte Carlo methods:

MC methods用整个序列中观察到的reward和来update value,one-step TD只用了下一步的reward+bootstrapping下一个状态的value。它们是两个极端,一般的n-step TD处于中间。

强化学习-An introduction之 n-step Bootstrapping 个人笔记

MC’s complete return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

one-step return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

two-step return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

n-step return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

state-value learning algorithm for using n-step returns:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

我们看到,n-step return与MC的return区别是,n-step return uses the value function Vt+n1 to correct for the missing rewards beyond Rt+n.

n-step TD:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

解释一下,当到t时刻时,我们更新时刻τ=tn+1的状态的value,即更新前面的state value,而不是t时刻的。

2 n-step Sarsa(on-policy)

n-step Sarsa return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

update rule:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

on-policy n-step Sarsa:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

It can speed up learning compared to one-step methods.

3 n-step Sarsa(off-policy)

与on-policy Sarsa相比,只是多了importance sampling。

n-step Sarsa update:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

强化学习-An introduction之 n-step Bootstrapping 个人笔记

off-policy n-step Sarsa:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

4 n-step Tree Backup Algorithm(off-policy)

off-policy method一般要用到importance sampling,那么不用importance sampling呢?

one-step method有Q-Learning和Expected Sarsa;

multi-step method是我们接下来要讲的——tree-backup algorithm.

我们以下图来讲解tree-backup algorithm的核心思想。

如果我们要更新q(St,At),需要计算这个state-action pair下的Gt(即reward和),首先需要加上Rt+1,然后是下一层是三个state-action pair,对于aAt+1的行动,用采取它们的概率π(a|St+1)乘以它们的value,对于a=At+1,用概率π(At+1|St+1)乘以Gt+1Gt+1的计算与Gt相同。

强化学习-An introduction之 n-step Bootstrapping 个人笔记

具体来讲:

one-step tree-backup return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

two-step tree-backup return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

n-step tree-backup return:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

action-value update rule:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

n-step Tree Backup Algorithm:

强化学习-An introduction之 n-step Bootstrapping 个人笔记

相关文章: