自动求导 (Automatic Differentiation, AD)

2021-03-04

作者：董鑫
链接：https://www.zhihu.com/question/66200879/answer/870023448
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

自动求导 (Automatic Differentiation, AD) 的课程 (CS207)，正好来回答一下。其实不只是 TensorFlow，Pytorch 这些为深度学习设计的库用到 AD，很多物理，化学等基础科学计算软件也在大量的使用 AD。而且，其实TensorFlow、Pytorch 也并非只能用于deep learning，本质上他们是一种

Tensor computation built on a tape-based autograd system --引自Pytorch

自动求导分成两种模式，一种是 Forward Mode，另外一种是 Reverse Mode。一般的机器学习库用的后一种，原因后面说。

Forward Mode

基于的就是就基本的 链式法则 chain rule,

$\begin{align} \nabla_{x}h = \sum_{i=1}^{n}{\frac{\partial h}{\partial y_{i}}\nabla y_{i}\left(x\right)}. \end{align}$

这个 Forward Mode 就是用 chain rule，像剥洋葱一样一层一层算出来

以

$f\left(x\right) = x - \exp\left(-2\sin^{2}\left(4x\right)\right).$

为例。我们可以把他的计算图画出来。

假如我要计算 $f\'(\frac\pi{16})$ ，可以根据上面的图得到一个表格

那么上面这个表里，每一步我们既要算 forward 的值 $f(a)$ ，也要算 backward 的值 $f\'(a)$ 。

有没有办法同时把这两个值算出来呢？

首先引入一个新的概念，二元数。二元数其实跟复数差不多，也是一种实数的推广。我们回忆一下，一个复数可以写成这样的形式：

$\begin{align} z = a + ib \ i^2=-1 \end{align}$

对于复数的理解，一个比较直观的例子就是。本来实数都是在一个实数轴（x轴）的。复部 $ib$ 相当于多了一个 y 轴出来。

那么二元数是这个亚子，

$\begin{align} z = a + \epsilon b \ \epsilon^2=0 \end{align}$

这个二元数很神奇的一个性质是，你带着他做运算，得出来的二元部 $\epsilon b$ 前面的系数，就是导数。举个栗子，我们要求

$y=\sin(x)$

我们可以把 $x=a+\epsilon b$ ，所以

$\begin{align} y & = \sin\left(a + \epsilon b\right) \\ & = \sin\left(a\right)\cos\left(\epsilon b\right) + \cos\left(a\right)\sin\left(\epsilon b\right). \end{align}$

我们把上面的三角函数展开，

$\begin{align} \sin\left(\epsilon b\right) &= \sum_{n=0}^{\infty}{\left(-1\right)^{n}\dfrac{\left(\epsilon b\right)^{2n+1}}{\left(2n+1\right)!}} = \epsilon b + \dfrac{\left(\epsilon b\right)^{3}}{3!} + \cdots = \epsilon b \ \\ \cos\left(\epsilon b\right) &= \sum_{n=0}^{\infty}{\left(-1\right)^{n}\dfrac{\left(\epsilon b\right)^{2n}}{\left(2n\right)!}} = 1 + \dfrac{\left(\epsilon b\right)^{2}}{2} + \cdots = 1. \end{align}$

得到

$\begin{align} y & = \sin\left(a\right) + \cos\left(a\right) b \epsilon. \end{align}$

可以看到，二元部 $\cos(a)$ 恰好就是原函数 $\sin(a)$ 的导数。

Reverse Mode

这个模式就比较简单和直接了。就是说，上面那个表里面，我每次只计算每个“小运算”的梯度（也是是那个图里面的每个节点），最后我再根据 chain rule 把“小运算”们的梯度串起来。其实 forward mode 和 reverse mode 并没有本质的区别，只是说，reverse mode在计算梯度先不考虑 chain rule，最后再用 chain rule 把梯度组起来。而前者则是直接就应用 chain rule 来算梯度。

下面总结一下 reverse mode 的流程：

创建计算图
计算前向传播的值及每个操作的梯度

这里没有 chain rule 的事
比如这个操作是乘法 $x_3 = x_1*x_2$，那么我们只需要把 $\frac{\partial x_3}{\partial x_2} \ \ \ 以及 \ \ \ \ \frac{\partial x_3}{\partial x_1}$ 算出来就好了

反向计算梯度从最后一个节点（操作）开始： $\overline{x}_{N} = \dfrac{\partial f}{\partial x_{N}} = 1 \ \ \ ,f=x_N$
根据 chain rule 逐层推进 $\overline{x}_{N-1} = \dfrac{\partial f}{\partial x_{N}}\dfrac{\partial x_{N}}{\partial x_{N-1}}$
假如有多条求导路径，我们要把他们加起来，例如 $\overline{x}{3} = \dfrac{\partial f}{\partial x{3}} = \dfrac{\partial f}{\partial x_{4}}\dfrac{\partial x_{4}}{\partial x_{3}} + \dfrac{\partial f}{\partial x_{5}}\dfrac{\partial x_{5}}{\partial x_{3}}$

举个栗子，我们要计算函数

$f\left(x,y\right) = xy + \exp\left(xy\right)$

在点 $a=(1,2)$ 的导数

首先还是先把计算图画出来

我们逐层的抽丝剥茧，

$\begin{align} \overline{x}{5} &= \dfrac{\partial f}{\partial x{5}} = 1\\ \overline{x}{4} &= \dfrac{\partial f}{\partial x{5}}\dfrac{\partial x_{5}}{\partial x_{4}} = 1 \cdot 1 = 1\\ \overline{x}{3} &= \dfrac{\partial f}{\partial x{4}}\dfrac{\partial x_{4}}{\partial x_{3}} + \dfrac{\partial f}{\partial x_{5}}\dfrac{\partial x_{5}}{\partial x_{3}}= 1 \cdot e^{2} + 1\cdot 1 = 1 + e^{2}\\ \overline{x}{2} &= \dfrac{\partial f}{\partial x{3}}\dfrac{\partial x_{3}}{\partial x_{2}} = \left(1 + e^{2}\right)x_{1} = 1 + e^{2} = \dfrac{\partial f}{\partial y} \\ \overline{x}{1} &= \dfrac{\partial f}{\partial x{3}}\dfrac{\partial x_{3}}{\partial x_{1}} = \left(1 + e^{2}\right)x_{2} = 2 + 2e^{2} = \dfrac{\partial f}{\partial x} \end{align}$

总结

可以很清楚的看到，在训练人工神经网络时常用的 backpropagation 也是属于 reverse mode 的。
假如我们要计算的梯度的函数是 $f:\mathbb{R}^m\rightarrow\mathbb{R}^n$

如果 n 是相对比较大的话，用 forward 比较省计算
如果 m 是相对比较大的话，用 reverse 比较省计算