多层感知机(Multi-Layer Perception)

鸣谢

多层感知机及其BP算法（Multi-Layer Perception）

Deep Learning 近年来在各个领域都取得了 state-of-the-art 的效果，对于原始未加工且单独不可解释的特征尤为有效，传统的方法依赖手工选取特征，而 Neural Network 可以进行学习，通过层次结构学习到更利于任务的特征。得益于近年来互联网充足的数据，计算机硬件的发展以及大规模并行化的普及。本文主要简单回顾一下 MLP ，也即为Full-connection Neural Network ，网络结构如下，分为输入，隐层与输出层，除了输入层外，其余的每层**函数均采用 sigmod ，MLP 容易受到局部极小值与梯度弥散的困扰，如下图所示：
多层感知机(Multi-Layer Perception)

MLP 的 Forward Pass

MLP 的 BP 算法基于经典的链式求导法则，首先看前向传导，对于输入层有 I 个单元，对于输入样本 (x,z) ，隐层的输入为：

a h = \sum i = 1 I w i h x i

b h = f (a h)

这里函数f为非线性**函数，常见的有sigmod或者是tanh，本文选取sigmod作为**函数。计算完输入层向第一个隐层的传导后，剩下的隐层计算方式类似，用hl表示第l层的单元数：

a h = \sum h' = 1 h l - 1 w h' h b h'

b h = f (a h)

对于输出层，若采用二分类即logisticregression，则前向传导到输出层：

a = \sum h' w h' h b h'

y = f (a)

这里y即为MLP的输出类别为1的概率，输出类别为0的概率为 1−y，为了训练网络，当z=1时，y越大越好，而当z=0时， 1−y越大越好，这样才能得到最优的参数w，采用MLE的方法，写到一起可以得到yz(1−y)1−z这便是单个样本的似然函数，对于所有样本可以列出log似然函数O=∑(x,z)zlogy+(1−z)log(1−y)，直接极大化该似然函数即可，等价于极小化以下的−log损失函数：

O = - ⎡ ⎣ \sum (x, z) z l o g y + (1 - z) l o g (1 - y) ⎤ ⎦

对于多分类问题，即输出层采用softmax，假设有K个类别，则输出层的第k个单元计算过程如下:

a k = \sum h' w h' k b h'

y k = f (a k)

则得到类别k的概率可以写作∏kyzkk，注意标签z中只有第k维为1，其余为0，所以现在只需极大化该似然函数即可:

O = \prod (x, z) \prod k y z k k

同理等价于极小化以下损失：

O = - \prod (x, z) \prod k y z k k

以上便是softmax的损失函数，这里需要注意的是以上优化目标O均没带正则项，而且logistic与softmax最后得到的损失函数均可以称作交叉熵损失，注意和平方损失的区别。

Backward Pass

有了以上前向传导的过程，接下来看误差的反向传递，对于sigmod来说，最后一层的计算如下：a=∑hwh⋅bh , y=f(a)=σ(a)这里bh为倒数第二层单元h的输出，σ为sigmod**函数，且满足σ′(a)=σ(a)(1−σ(a))，对于单个样本的损失：

O = - [z l o g (σ (a) + (1 - z) l o g (1 - σ (a))]

可得到如下的链式求导过程：

\partial O \partial w h = \partial O \partial a \cdot \partial a \partial w h

显而易见对于后半部分∂a∂wh为bh，对于前半部分∂O∂a:

\partial O \partial a = - \partial [z l o g (σ (a)) + (1 - z) l o g (1 - σ (a))] \partial a = - [z σ (a) - 1 - z 1 - σ (a)] σ' (a) = - [z σ (a) - 1 - z 1 - σ (a)] σ (a) (1 - σ (a)) = σ (a) - z = y - z

以上，便得到了logistic的残差，接下来残差反向传递即可，残差传递形式同softmax，所以先推倒softmax的残差项，对于单个样本， softmax的log损失函数为：

O = - \sum i z i l o g y i

其中：

y i = e a i \sum j e a j

根据以上分析，可以得到yk′关于ak的导数:

\partial y k' \partial a k = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ \sum i \neq k e a j \cdot e a k \sum j e a j \cdot \sum j e a j e a k' \cdot e a k \sum j e a j \cdot \sum j e a j = y k (1 - y k) k' = k = - y k' y k k \neq k

现在能得到损失函数O对于ak的导数：

\partial O \partial a k = \partial [- \sum i z i l o g y i] \partial a k = - \sum i z i \cdot \partial l o g y i \partial a k = - \sum i z i 1 y i \partial y i \partial a k = - z k (1 - y k) - \sum i \neq k z i 1 y i (- y i y k) = - z k + z k y k + \sum i \neq k z i y k = - z k + y k (\sum i z i) = y k - z k

这里有∑izi=1，即只有一个类别。到这一步， softmax 与 sigmod 的残差均计算完成，可以用符号 δ 来表示，对于单元 j ，其形式如下：

δ j = \partial O \partial a j

这里可以得到 softmax 层向倒数第二层的残差反向传递公式：

δ h = \partial O \partial b h \cdot \partial b h \partial a h = \partial b h \partial a h \sum k \partial O \partial a k \cdot \partial a k \partial b h = f' (a h) \sum k w h k δ k

其中ak=∑hwhkbh，对于 sigmod 层，向倒数第二层的反向传递公式为：

δ h = \partial O \partial b h \cdot \partial b h \partial a h = \partial b h \partial a h \cdot \partial O \partial a \cdot \partial a \partial b h = f' (a h) w h δ

以上公式的 δ 代表 sigmod 层唯一的残差，接下来就是残差从隐层向前传递的传递过程，一直传递到首个隐藏层即第二层（注意，残差不会传到输入层，因为不需要，对输入层到第二层的参数求导，其只依赖于第二层的残差，因为第二层是这些参数的放射函数）：

δ h = f' (a h) \sum h' = 1 h l + 1 w h h' δ h'

整个过程可以看下图：
多层感知机(Multi-Layer Perception)

最终得到关于权重的计算公式：

\partial O \partial w i j = \partial O \partial a j \partial a j \partial w i j = δ j b i

至此完成了backwark pass 的过程，注意由于计算比较复杂，有必要进行梯度验证。对函数 O 关于参数 wij 进行数值求导即可，求导之后与与上边的公式验证差异，小于给定的阈值即认为我们的运算是正确的。