Softmax 以及交叉熵损失函数的求导

Ouput layer & 代价函数

网络结构

Output later 有K个神经元，有K个输入和输出。为了分别标记输入和输出，用ai∈[1,K]来表示Output layer的输入数据，yj∈[1,K]来表示Output layer输出点数据。每个输入数据ai∈[1,K]和隐藏层的H个块之间是全连接的。
Softmax 以及交叉熵损失函数的求导

输入和输出数据

每个Output layer层的输入数据是ai=∑Hh=1whibh。
当使用softmax输出函数的时候，每个Output layer层的输出数据就为yj=eaj∑Kj′=1eaj′。
当使用交差熵代价函数的时候L(x,z)=−∑Kj=1zjlnyj ，这里zj是各个输出点的目标分类结果，在训练数据中已经给出来了。

求导数

这里要求的是代价函数对每个输入数据的导数δi=∂L(x,z)∂ai。在反向传播中δi会传播给后续网络。

首先复习一下会用到的基本的微积分知识：

(u v)' = u' v + u v' l n (x)' = 1 x

交叉熵的导数：

对于任意一个输出yj的导数

\partial L (x, z) \partial y j = \partial - \sum K j' = 1 z j' l n y j' \partial y j = - z j y j 当 j' \neq j 时 ， 该 项 对 于 y j 的 微 分 为 0 。 因 此 只 需 要 求 j' = j 项 时 的 导 数 此 时 有 ： \partial z j l n y j \partial y j = z j y j

Softmax函数的导数：

首先准备一下在计算时会反复用到的部分：

\partial 1 \sum K j' = 1 e a j' \partial a j = \partial 1 \sum K j' = 1 e a j' \partial \sum K j = 1 e a j' \partial \sum K j' = 1 e a j' \partial a j = - 1 (\sum K j' = 1 e a j') 2 \partial \sum K j = 1 e a j' \partial a j = - 1 (\sum K j' = 1 e a j') 2 e a j 根 据 链 式 法 则 ， 把 复 杂 的 函 数 分 解 成 复 合 函 数 ， 然 后 可 以 对 其 分 别 求 导 数 \sum j' = 1 K e a j' 可 以 分 解 为 \sum j' \neq j e a j' + e a j 其 对 e a j 的 导 数 就 是 e a j

在求导数时，根据i和j是否相等分开进行讨论：
当i=j时，求导数公式如下：

\partial e a i \sum K j = 1 e a j \partial a i = \partial e a i \partial e a i 1 \sum K j' = 1 e a j' + e a i \partial 1 \sum K j' = 1 e a j' \partial a i = e a i 1 \sum K j' = 1 e a j' + e a i (- 1 (\sum K j' = 1 e a j') 2 e a i) = e a i \sum K j' = 1 e a j' (1 - e a i \sum K j' = 1) = y i (1 - y i) 根 据 (u v)' = u' v + u v' ， 把 函 数 拆 成 两 个 部 分 分 别 求 导 数 由 s o f t m a x 定 义 ， y i = e a i \sum K j' = 1 e a j'

i≠j的求导数公式如下:

\partial e a j \sum K j' = 1 e a j' \partial a i = e a j \partial 1 \sum K j' = 1 e a j' \partial e a i = e a j (- 1 (\sum K j' = 1 e a j') 2 e a i) = e a j \sum K j = 1 e a j' e a i \sum K j' = 1 e a j' = - y j y i e a j 不 受 e a i 影 响 ， 是 个 常 数

输出层的梯度δi的推导

L受所有的输出数据yj影响，而任意一个输入数据ai会影响到所有的输出数据yj,因此在L 对任意一个ai求导数时，要把所有的yj的导数都传递给ai，并把它们累加起来。
Softmax 以及交叉熵损失函数的求导

δ i = \partial L \partial a i = \partial L \partial y 1 \partial y 1 \partial a i + \partial L \partial y 2 \partial y 2 \partial a i + \dots + \partial L \partial y j \partial y j \partial a i + \dots + \partial L \partial y K \partial y K \partial a i = \sum j = 1 K \partial L \partial y j \partial y j \partial a i = \sum j \neq i K \partial L \partial y j \partial y j \partial a i + \partial L \partial y i \partial y i \partial a i 根 据 i 和 j 是 否 相 等 分 开 进 行 讨 论

当i≠j时：

\sum j \neq i K \partial L \partial y j \partial y j \partial a i = \sum j \neq i K [- z j y j (- y i y j)]

当i=j时：

\partial L \partial y i \partial y i \partial a i = - z i y i [y i (1 - y i)]

把这两个部分加起来：

δ i = \partial L \partial a i = \sum j \neq i K \partial L \partial y j \partial y j \partial a i + \partial L \partial y i \partial y i \partial a i = \sum j \neq i K [- z j y j (- y i y j)] + {- z i y i [y i (1 - y i)]} = y i {\sum j \neq i K [- z j y j (- y j)] - z i y i (1 - y i)} = y i {\sum j \neq i K z j - z i y i + z i} = y i （ 1 - z i y i ） = y i - z i 根 据 i 和 j 是 否 相 等 分 开 进 行 讨 论 把 上 面 两 个 部 分 代 入 提 取 公 因 数 y i 由 于 z j 是 个 概 率 函 数 ， 因 此 所 有 的 z j 的 和 是 1 。 \sum j \neq i K z j + z i = 1