为什么神经网络会有很多局部最优点？

这其实是一个理解上的误区：

陷入局部最优其实不是神经网络的问题，在一个非常高维的空间中做梯度下降，这时的local minimum是很难形成的，因为局部最小值要求函数在所有维度上都是局部最小的。实际情况是，函数会落在一个saddle-point上。

在saddle-point上会有一大片很平坦的平原，让梯度几乎为0，导致无法继续下降。

但是saddle-point并不是一个局部极小值点，因为它还是有可以下降的方向，只不过现在这些优化算法都很难去找到这个方向罢了。

通过以下图来感受以下saddle-points

为什么神经网络会有很多局部最优点？

NN的设计激活函数是为了引入非线性变换，凸不凸都可以。

其次在神经网络的变换中，其实是对原始空间的不断的挤压或者拉伸，但是不会切断。tanh这个激活函数能够保证原始空间和变换后的空间的同胚性。（有待研究）colah的博客中提到的。

Ref:

[1]Dauphin Y, Pascanu R, Gulcehre C, et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[J]. Mathematics, 2014, 111(6 Pt 1):2475-2485.

[2]http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/

相关文章：

2021-11-09
2021-04-20
2022-01-17
2021-05-03
2021-11-27
2021-10-01

猜你喜欢

2021-06-17
2021-12-06
2021-11-21
2021-11-27
2021-06-18
2021-10-21
2021-11-11

相关资源

下载 2023-03-29
下载 2023-01-29
下载 2023-04-10

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode