九：神经网络的学习

令L代表神经网络层数，九：神经网络的学习代表第l层神经元的个数( 即代表最后一层神经元的个数)，则神经网络分类可表达如下：

<1> 二类分类：九：神经网络的学习 =1，y=1/0表示分到哪一类

<2> 多类分类：九：神经网络的学习 =k，=1表示分到第i类

通过逻辑回归代价函数：

九：神经网络的学习

可将神经网络代价函数表示如下：

九：神经网络的学习

在神经网络中，hθ(x)是一个维度为k的向量，对于每一行特征，我们都将做出k个预测，选取可能性最高的一个，与实际值做比；

即样本与每个类输出差值的加和 + 偏置项参数平方和(除θ0)

在结果预测中，我们使用了正向传播，从第一层向后逐层计算，直到计算出hθ(x)；

九：神经网络的学习

在代价函数偏导计算时，我们需要使用反向传播，从最后一层向前逐层计算误差，直到倒数第二层；

单一训练样本推导：

使用δ表示误差九：神经网络的学习

九：神经网络的学习

则在λ=0时可得九：神经网络的学习

矩阵训练集及考虑归一化推导：

令九：神经网络的学习表示误差矩阵，第l层的第i个**单元受到第j个参数影响而导致的误差，算法为

九：神经网络的学习

代价函数偏导计算：

九：神经网络的学习

对于初始化参数，神经网络模型中我们通常不会初始化为0，如果这样第二层**单元将都会有相同的值；通常初始化为正负 ε 之间的随机值，如：Theta1 = rand(10, 11) * (2*eps) – eps ；

在一些复杂模型中，梯度下降算法可能收敛不到最优解，可通过估计梯度值来检验我们计算的导数值是否真的是我们要求的；

方法：代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度；即对于特定θ，我们计算出在 θ-ε 处和 θ+ε 的代价值（ε 是一个非常小的值，通常选取 0.001），然后求两个代价的平均，用以估计在 θ 处的代价值；

Octave中计算方法：

gradApprox = (J(theta + eps) – J(theta - eps)) / (2*eps)

对于θ向量做偏导校验：

九：神经网络的学习

------------------------------------------------------------------------------------------------------------------------------------

文章内容学习整理于吴教授公开课课程与黄博士笔记，感谢！