一、二次损失函数
公式:
其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本的总数好,(L是代表什么,我也不知道,但这不重要)。
重点:假如我们使用梯度下降法来调整权值参数的大小,权值w和偏置b的梯度推导公式:
其中,z表示神经元的输入,σ表示**函数。w和b的梯度跟**函数的梯度成正比,**函数的 梯度越大,w和b的大小调整得越快,训练收敛得就越快。
因此参数的梯度的大小不与误差的大小有关还与**函数的梯度梯度有关
二、交叉熵代价函数
公式:
其中字母代表额含义和前面一样
重点:假设**函数为sigmoid函数则器导数为:
其对权值w和b的求导为:
可以发现权值和偏置的调整与**函数的的导数无关,就只有与误差有关了,当误差越大时,梯度就越大,
参数w和b的调整就越块,训练的速度也就越快。
那如何选择损失函数呢?
如果输出神经元是线性的,那么二次损失函数就是一种合适的选择。如果输出神经元是S型的函数,那么比较适合用交叉熵的损失函数。但目前输出层常用的**函数为softmax,可以用对数释然损失函数。