Learning representations by back-propagating errors【译文】

Learning representations by back-propagating errors 通过反向传播错误学习表示

反向传播算法最初是在1970年代引入的，但是直到1986年David Rumelhart，Geoffrey Hinton和Ronald Williams发表了著名论文【Learning representations by back-propagating errors Rumelhart et al., Nature, 1986】后，它的重要性才得到充分认识。
这篇论文描述了几种神经网络，其中反向传播比以前的学习方法快得多，这使得使用神经网络解决以前无法解决的问题成为可能。如今，反向传播算法已成为神经网络中学习的主力军。

我们描述了一种新的学习程序，反向传播(back-propagation)，用于神经元样单元的网络。该程序反复调整网络中的连接权重，以便最小化网络实际输出向量和给定输出向量之间差异性的度量。由于权重调整，内部不作为输入或输出部分的“隐藏”单元开始表现出任务领域的重要特征，并且任务的规律性(regularities)被这些单元的相互作用下所捕捉。创建有用新特征的能力将反向传播与早期简单的诸如感知收敛(perceptron-convergence)程序的方法区分开来。

已经有很多尝试来设计自组织(self-organizing)神经网络。目的是找到一个允许任意连接的神经网络来发展适合于特定任务领域的内部结构的强有力的突触修改规则(synaptic modification rule)。任务通过对每个输入单元的状态向量给出特定的输出单元的状态向量来指定。如果输入单元直接连接到输出单元，比较容易发现迭代地调整连接的相对强度的学习规则(learning rules)，以便逐步降低实际的和给定的输出向量之间的差异性。学习变得更有趣了，但当我们引入实际和给定状态不被任务指定的隐藏单元时也变得更困难了。（在感知器中，输入和输出之间存在着并不是真正隐藏单元的“feature analysers”，因为这些输入连接是手动固定的，所以这些状态已经完全被输入向量确定了：它们没有学习表示(learn representations)）。学习程序(learning precedure)必须决定在什么情形下隐藏单元是**的以帮助完成给定的输入输出行为。这意味着决定这些单元应该代表着什么。我们证明了一个通用的目的和相对简单的程序充分足以构建合适的内部表示。

学习程序的最简单形式是拥有一层底部输入单元，任意数量的中间层，以及一层顶部输出单元的层级网络。层内部或从高层向底层的连接是被禁止的，但连接可以跳过中间层。通过设置输入单元的状态，一个输入向量就呈现给网络。对底层连接应用等式(1)和(2)，每层单元状态就确定了。同一层的所有单元状态平行设置，但不同层的状态顺序设置，从底层开始向上传播直到输出单元的状态确定为止。

对单元 $j$ 的总输入 $x_j$ 是连接到 $j$ 的单元 $y_i$ 和此连接上的权重 $w_{ji}$ 的输出的线性函数：
$x_j=\sum_i y_iw_{ji}\tag{1}$
通过对每个单元引入经常取值为1的额外输入，所有单元可以被赋予偏差(biases)。额外输入上的权重称为偏差(bias)，并且等于相反符号的阈值(threshold)。可以像其他权重一样对待它。

一个单元有实值输出 $y_j$ ，其是总输入的非线性函数：
$y_j=\frac{1}{1+e^{-x_j}} \tag{2}$
没有必要完全使用等式(1)和(2)给出的函数。任何具有有界导数的输入输出函数都能实现。然而，在应用非线性之前使用线性函数来组合输入到单元极大地简化了学习过程。

目的是找出确保由网络产生地每个输入输出向量与给定输出向量一模一样(或足够接近)的一组权重。如果存在固定有限的一组输入输出案例，具有一组特定权重的网络性能总误差可以通过比较每个案例的实际和给定输出向量来计算得到。总误差 $E$ 定义为：
$E=\frac{1}{2}\sum_{c}\sum_{j}(y_{j,c}-d_{j,c})^2 \tag{3}$
其中， $c$ 是案例(输入输出对)的索引， $j$ 是输出单元的索引， $y$ 是输出单元的实际状态而 $d$ 是其给定状态。为了通过梯度下降最小化 $E$ ，有必要计算 $E$ 相对于网络权重的偏导。这仅仅是每个输入输出案例的偏导之和。对于一个给定案例，误差相对于每个权重的偏导经过两个传递后计算得到。我们已经描述了每层单元状态由接收来自底层的单元使用等式(1)和(2)所决定的前向传递。从顶层返回底层地传播导数的反向传递是更复杂的。

对每个输出单元通过计算 $\partial E/ \partial y$ 开始反向传递。对特殊案例 $c$ 求导等式(3)，并且遮掩索引 $c$ 得到：
$\partial E / \partial y_j=y_j-d_j \tag{4}$
我们可以应用链式规则来计算 $\partial E / \partial x_j$ ：
$\partial E / \partial x_j=\partial E / \partial y_j \cdot dy_j/dx_j$
求导等式(2)得到 $dy_j/dx_j$ 的值并替代得到：
$\partial E / \partial x_j =\partial E / \partial y_j \cdot y_j(1-y_j) \tag{5}$
这意味着我们知道总输入 $x$ 对一个输出单元的变化将如何影响到误差。但这个总输入仅仅是更底层单元的状态的线性函数并且也是连接权重的线性函数，所以很容易计算通过改变这些状态和权重，误差将如何被影响到。对一个权重 $w_{ji}$ ，从 $i$ 到 $j$ 的导数是：
$\begin{aligned} \partial E / \partial w_{ji} &= \partial E / \partial x_j \cdot \partial x_j / \partial w_{ji} \\ &=\partial E / \partial x_j \cdot y_i \tag{6} \end{aligned}$
并且对第 $i^{th}$ 个单元的输出，源于 $i$ 对 $j$ 的影响， $\partial E / \partial y_i$ 的贡献仅为：
$\partial E / \partial x_j \cdot \partial x_j / \partial y_i = \partial E / \partial x_j \cdot w_{ji}$
所以从单元 $i$ 发出的所有连接考虑在内，我们得到：
$\partial E / \partial y_i = \sum_{j} \partial E / \partial x_j \cdot w_{ji} \tag{7}$
我们现在已经可以看到，当对最后一层的所有单元给定 $\partial E / \partial y$ 的时候，对倒数第二层的任意单元，怎样去计算 $\partial E / \partial y$ 。我们因此可以重复这一过程来对早先层连续地计算这一项，当我们做的时候对所有权重计算 $\partial E / \partial w$ 。

使用 $\partial E / \partial w$ 的一种方式是每对输入输出案例之后改变权重。这拥有着没有单独内存被要求用于导数的好处。另一个可选的方案，我们在这里报道的研究使用过的，是为了在改变权重之前在所有输入输出案例上累加 $\partial E / \partial w$ 。梯度下降的最简化版本是通过成比例于已累加 $\partial E / \partial w$ 的数量来改变每个权重。
$\Delta w =- \varepsilon \partial E / \partial w \tag{8}$
这种方法不会和使用二阶导数的方法一样快速收敛，但是它更简单，并且在平行硬件上通过本地计算很容易被执行。它可以在不用牺牲简单性和局部性，通过使用一种当前梯度被用来修改权重空间而不是其位置(instead of its position)的点的速度的加速方法被极大地改善：
$\Delta w(t)=- \varepsilon \partial E / \partial w(t)+ \alpha \Delta w(t-1) \tag{9}$
其中 $t$ 在全部输入输出样例集上每次扫描时增加1，并且 $\alpha$ 是决定当前梯度和对权重改变的先前梯度的相对贡献的(0,1)之间的指数衰退因子。

为打破对称性，我们从小的随机权重开始。学习过程中的变量已经被David Parker(个人交流)和Yann Le Cun独立发现。

通过仅连接输入单元和输出单元不能被完成的一个简单任务是对称性的检测。为了检测输入单元的一维数组的二元活动水平是否是关于中心点对称的。使用一个中间层是很有必要的，因为单独考虑一个独立输入单元的活动没有提供关于整个输入向量的对称或非对称性的证据，所以简单加上独立输入单元的证据是不够的。（一个更正式的中间单元的证明在引用2中给出）正如图1所示，学习过程发现一个仅使用两个中间单元的优雅解决方案。

另一个有趣的任务是存储两个家庭图谱信息（图2）。图3 展示了我们使用的网络，而图4展示了在网络被训练了104个可能的三元组中的100个之后，一些隐藏单元的“可接受领域”。

到目前为止，我们已经处理了分层的前向网络。分层网络和迭代运行的循环网络之间的等效关系如图5所示。

学习过程最明显的缺点是误差表面(error-surface)可能包含局部最小值以至于梯度下降不能保证能找到一个全局最小值。然而，很多任务经验表明，网络很少卡顿在明显比全局最小值更差劲的不符合要求的局部最小值。我们仅在有足够连接来执行任务的网络中遇到过这种不良行为。增加更多一些连接在权重空间中创造了额外的维度并且这些维度围绕创造了更低维度子空间的不符合要求的局部最小值的边界提供了路径。

当前形式的学习过程不是一个合理的大脑学习模型。然而，应用这些过程到各种任务表明(shows)了有趣的内部表示能在权重空间通过梯度下降来构建，并且这也表明(suggests)了寻找更多生物学上在神经网络进行梯度下降的的合理方式是值得的。

感谢系统发展基金会(the System Development Foundation)和海军研究办公室(the Office of Naval Research)的财政支持。