梯度下降法 Gradient descent

经常听到梯度下降法，只知道它是用于优化求解问题。即沿着梯度的反方向（坡度最陡的方向）进行权值更新。为什么局部梯度下降最快的方向就是梯度的负方向呢？

梯度

梯度就是表示某一个函数在当前位置的导数。梯度下降法 Gradient descent 为自变量，为关于的函数；为梯度

如果函数梯度下降法 Gradient descent 为凸函数，那么就可以根据梯度下降算法进行优化，求得使最小的参数；

梯度下降法 Gradient descent

梯度下降法 Gradient descent 为当前下山的位置，为下山移动一小步之后的位置，为学习因子，即步长。

梯度更新公式的推导——一阶泰勒展开式

一阶泰勒展开式的基本形式为：梯度下降法 Gradient descent

这个公式主要利用的是函数的局部线性近似，图解：

梯度下降法 Gradient descent

用红色的直线代替黑色曲线，求出梯度下降法 Gradient descent 的值，即可以看作斜率

梯度下降法 Gradient descent 是微小矢量，它的大小为步长，但它是有方向的矢量，将的单位向量记作 v；那么，则

梯度下降法 Gradient descent

由于局部下降的目的是希望每次更新梯度下降法 Gradient descent 的值，都能使变小，所以：

梯度下降法 Gradient descent

步长梯度下降法 Gradient descent 为标量且一般设置为正数，所以不等式变为：

梯度下降法 Gradient descent

v和梯度下降法 Gradient descent 都为向量，向量乘积有几种情况：

梯度下降法 Gradient descent

要使他们的向量乘积小于0，且使得乘积最小，只要cos(α) = -1，即A,B完全反向。也就是说，变量梯度下降法 Gradient descent 的方向v应该为：

梯度下降法 Gradient descent

所以

梯度下降法 Gradient descent

因为梯度下降法 Gradient descent 为标量，可以和步长合并，所以最终，变量的更新公式为：

梯度下降法 Gradient descent

参考：http://www.360doc.com/content/18/0526/06/36490684_757087825.shtml 感谢

相关文章：

2021-11-14
2021-11-09
2021-10-10
2021-11-27
2021-11-27

猜你喜欢

2021-06-30
2022-01-09
2021-11-07
2021-07-14
2021-05-24
2021-08-01

相关资源

下载 2023-02-23
下载 2022-12-10
下载 2022-12-15
下载 2023-03-28
下载 2021-07-13

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode