西瓜书学习笔记之神经网络

感知机

感知机是一种最简单形式的前馈神经网络，是二元线性分类模型，输入为实例的特征向量，输出为他的类别（+1/-1），感知机的目的是训练出将数据分隔开的分离超平面。
西瓜书学习笔记之神经网络

感知机能轻易完成与、或、非运算，感知机的权重w如此调整：每次改变Δwi，Δwi=η（y-y’）xi ，这里，η是学习率，y-y’是预测值y’和实际值y的差，xi是第i个神经元的输入。因此可以看出如果预测正确则权重不变，预测错误则按照程度大小调整权重。y-y‘一定是处于0-1之间因此每次修正的数值应该是输入的一定比例。

逆误差传播算法（BP算法）

给定训练集D（xi，yi），每一个神经元节点的值是这个节点前面所有节点和它们对应的权重的共同影响的结果值。最后输出（y1，y2…yl）的yk值为f（βj-θj），其中βj是计算出来的数值，θj是阈值，f（x）是**函数。**函数将较大范围内的输入挤压到一个较小的区间，非线性函数让神经网络更复杂从而提升其表达能力。

当输出（y1，y2…yl）后，我们可以得到网格在（xk，yk）上的均方误差Ek，Ek的值为所有节点的y-y’的平方和除以2。任意参数v的更新方式为+Δv，bp算法基于梯度下降算法，以目标的负梯度对参数进行调整。

西瓜书学习笔记之神经网络

而其中Ek对whj的偏导可以变成三项的点乘：Ek对yk的偏导，yk对βj的偏导，βj对whj的偏导。而根据定义βj对whj的偏导是bh（上面图中就有公式）。我们如果使用sigmoid函数，那么它有个很好的性质就是它的导数是f（x）乘以1-f（x）。
西瓜书学习笔记之神经网络
类似方法更新这些参数

其中eh的表达式推导出来为

总得来说，就是先在01范围内随机初始化网格中的权值和阈值，然后根据输入计算第一轮的输出y’，然后计算出输出层神经元梯度项gi和隐藏层神经元梯度项eh然后更新权重再做计算。直到最小化训练累积误差E等于所有次Ek的平均值，当然是每轮更新一次。

衍生问题

强大的表达能力让神经网络会产生过拟合现象。早停策略：当训练集误差降低且验证集误差增高的时候停止训练，返回具有最小验证集误差的参数。正则化策略：在误差目标函数中增加一个描述网络复杂度的部分
西瓜书学习笔记之神经网络
参数λ可以用交叉验证来估计，是个01区间的数。