神经网络笔记 - 交叉熵(Cross-Entropy)

如上文所述, 如果我们使用均方误差来考量学习误差

C = 1 2 n \sum x | | y (x) - a L (x) | | 2

则有

\partial C \partial w = (a - y) σ' (z) x

\partial C \partial b = (a - y) σ' (z)

Sigmoid 函数的曲线大致如下图:
神经网络笔记 - 交叉熵(Cross-Entropy)

当神经元的输出接近0或者1的时候, 曲线是比较平的, 这也就意味着σ′(z)是一个很小的值, 这样的话, 学习速度势必下降. 为了优化神经网络学习, 我们引入了交叉熵(Cross-Entropy).
交叉熵的定义如下:

C = - 1 n \sum x [y ln a + (1 - y) ln (1 - a)]

从交叉熵的计算公式, 可以发现:

所以, 交叉熵是可以作为代价函数来考量学习误差的. 接下来分析学习速度.

\partial C \partial w j = - 1 n \sum x (y σ (z) - 1 - y 1 - σ (z)) \partial σ \partial w j

\partial C \partial w j = - 1 n \sum x (y σ (z) - 1 - y 1 - σ (z)) σ' (z) x j

继续推导:

\partial C \partial w j = 1 n \sum x σ' (z) x j σ (z) (1 - σ (z)) (σ (z) - y)

因为sigmoid函数的性质σ′(z)=σ(z)(1−σ(z)),
所以:

\partial C \partial w j = 1 n \sum x x j (σ (z) - y)

显然, 学习速度跟学习误差成比, 这正是所期望的.
类似的, 我们也可以由此推导

\partial C \partial b = 1 n \sum x (σ (z) - y)