目录

监督学习中的线性模型

线性单元

线性单元的目标函数

梯度下降法


监督学习中的线性模型

线性单元

线性单元示意图:

深度学习之梯度下降法

 对于Net input function,其求和公式模型可以表示为:

深度学习之梯度下降法

即为线性模型,输出深度学习之梯度下降法是输入特征深度学习之梯度下降法的线性组合。

图中的Activation function是深度学习之梯度下降法,也可以换成sigmoid函数等其他的**函数。

线性单元的目标函数

对于监督学习,我们能够知道一个样本的特征深度学习之梯度下降法,以及标记深度学习之梯度下降法。同时,我们还可以根据模型深度学习之梯度下降法计算得到输出深度学习之梯度下降法。现,用深度学习之梯度下降法表示训练样本里面的标记,也就是实际值;用带上划线的深度学习之梯度下降法表示模型计算的出来的预测值。当然,两者的值越接近越好。

最经典的,用误差的平方的二分之一来表示两者的接近程度:

深度学习之梯度下降法

上式表示的是单个样本的误差,对于n个样本,可以用所有样本的误差平方的和来表示目标函数(损失函数):

深度学习之梯度下降法

其中:

深度学习之梯度下降法

对于特定的样本数据集,深度学习之梯度下降法深度学习之梯度下降法的值都是已知的,所以目标函数是参数深度学习之梯度下降法的函数:

深度学习之梯度下降法


梯度下降法

梯度:在高等数学中定义为一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。所以,当朝着梯度的反方向来修改自变量,则目标函数向局部最小值逼近。

 

当目标函数为凸函数(局部最优即为全局最优)时,梯度下降法的解是全局最优解。

深度学习之梯度下降法

但一般情况下,不保证是全局最优解,下降速度也未必最快。

优化思想:用当前位置的负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向。

深度学习之梯度下降法

梯度深度学习之梯度下降法为目标函数深度学习之梯度下降法关于各个自变量的偏导数:

深度学习之梯度下降法

             深度学习之梯度下降法(和的导数等于导数的和)

根据求导链式法则,可以得到:

深度学习之梯度下降法
缺点:

  • 靠近极小值时收敛速度减慢
  • 直线搜索时可能产生一些问题;
  • 可能会走之字型下降

相关文章: