强化学习导论 | 第七章 n步时序差分算法

前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值，即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的即时奖励和后续状态的估计价值相加得来的，即在执行一个动作之后就更新价值。

那么，能否将MC和TD(0)结合呢？基于这个想法，就产生了n步时序差分算法。即在某个状态的价值等于在当前状态下走n步得到的奖励加上后续状态的估计价值。

文章目录

1. n步时序差分预测
2. n步Sarsa
3. n步off-policy学习
4. n步树备份算法——不需要重要性采样的off-policy学习方法
5. 总结

1. n步时序差分预测

关于MC、TD(0)以及n-步TD的关系可以用下面一张图完美诠释。
强化学习导论 | 第七章 n步时序差分算法
上图中的空心圆代表状态，实心圆代表动作。最左边是TD(0)，最右边是MC。中间就是今天要讲的n步时序差分方法。对于2-step TD，状态 $s$ 的价值是根据其后两步得到的奖励和执行这两步之后到达的状态的估计价值来计算的，公式表示如下，上标(2)表示2-步TD的奖励。
$G_t^{(2)} = R_{t+1} + \lambda R_{t+2} + \lambda^2 V(S_{t+2})$

那么，n步TD的返回奖励就表示为：
$G_t^{(n)} = R_{t+1} + \lambda R_{t+2} + \cdots + \lambda^{n-1} R_{t+n} + \lambda^n V(S_{t+n})$

有了某时刻能得到的奖励值之后，就可以进行状态的价值更新，更新方式跟其他方法是类似的：
$V(S_t) = V(S_t) + \alpha[G_t^{(n)} - V(S_t)]$

上面的分析对应的算法伪代码如下：
强化学习导论 | 第七章 n步时序差分算法

2. n步Sarsa

上面讲了n步时序差分法怎样进行预测，即策略评估（计算状态价值）。那么这种方法怎样进行策略控制（找到最优策略）呢？TD(0)方法中已经介绍了两种控制方法，即Sarsa和Q-learning。这一节主要讲n步Sarsa如何实现。

在之前的学习中，我们知道，在off-policy的情况下，计算状态价值 $V(s)$ 并不能帮助我们找到一个最优策略。所以在off-policy方法中，我们一般计算动作价值 $Q(s, a)$ ，这样就可以在任何一个状态下选择能够使Q值最大的动作，从而得到最优策略。

这里的奖励 $G_t$ 定义为：
$G_t^{(n)} \doteq R_{t+1} + \lambda R_{t+2} + \cdots + \lambda^{n-1}R_{t+n} + \lambda^n Q(S_{t+n}, A_{t+n})$

动作价值的更新为：
$Q(S_t, A_t) \doteq Q(S_t, A_t) + \alpha[G_t^{(n)} - Q(S_t, A_t)]$

Sarsa(0)、Expected Sarsa和n步sarsa的关系如下：
强化学习导论 | 第七章 n步时序差分算法
上图中的第一个实心圈代表状态动作对(s, a)，空心圆圈代表状态，下面的实心圆圈代表动作。比如：sarsa(0)的表示如下：

根据上面分析的更新公式，对应的伪代码如下：

n-步sarsa比sarsa(0)能更快的学习到动作价值。为什么呢？下面给出一个例子来说明。在方格游戏中，每个位置代表一个状态，所有状态的价值初始化为0，从一个点开始做任何动作得到的奖励都为0，除非达到终点G，则得到一个正值的奖励。最左边图中的路径表示一条采样出的轨迹。后面两个图中的箭头表示通过一步sarsa和10步sarsa方法，都分别增强了哪些动作值。具体来说，一步sarsa中，因为只走一步就更新，所以在这个轨迹中，仅有倒数第二个状态的向上的动作价值得到了更新。但在10步sarsa中，走10步更新，所以终点G之前的10个状态的对应动作价值都得到了更新。
强化学习导论 | 第七章 n步时序差分算法