深度学习之梯度下降法

目录

监督学习中的线性模型

线性单元的目标函数

梯度下降法

监督学习中的线性模型

线性单元

线性单元示意图：

深度学习之梯度下降法

对于Net input function，其求和公式模型可以表示为：

深度学习之梯度下降法

即为线性模型，输出深度学习之梯度下降法是输入特征的线性组合。

图中的Activation function是深度学习之梯度下降法，也可以换成sigmoid函数等其他的**函数。

线性单元的目标函数

对于监督学习，我们能够知道一个样本的特征深度学习之梯度下降法，以及标记。同时，我们还可以根据模型计算得到输出。现，用表示训练样本里面的标记，也就是实际值；用带上划线的表示模型计算的出来的预测值。当然，两者的值越接近越好。

最经典的，用误差的平方的二分之一来表示两者的接近程度：

深度学习之梯度下降法

上式表示的是单个样本的误差，对于n个样本，可以用所有样本的误差平方的和来表示目标函数（损失函数）：

深度学习之梯度下降法

其中：

深度学习之梯度下降法

对于特定的样本数据集，深度学习之梯度下降法的值都是已知的，所以目标函数是参数的函数：

深度学习之梯度下降法

梯度下降法

梯度：在高等数学中定义为一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。所以，当朝着梯度的反方向来修改自变量，则目标函数向局部最小值逼近。

当目标函数为凸函数（局部最优即为全局最优）时，梯度下降法的解是全局最优解。

深度学习之梯度下降法

但一般情况下，不保证是全局最优解，下降速度也未必最快。

优化思想：用当前位置的负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向。

深度学习之梯度下降法

梯度深度学习之梯度下降法为目标函数关于各个自变量的偏导数：

深度学习之梯度下降法

深度学习之梯度下降法（和的导数等于导数的和）

根据求导链式法则，可以得到：

深度学习之梯度下降法
缺点：

靠近极小值时收敛速度减慢；
直线搜索时可能产生一些问题；
可能会走之字型下降

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode