动手学习深度学习－Pytorch：夯基础

一随机梯度下降为什么可以代替梯度下降最终实现收敛？

动手学习深度学习－Pytorch：夯基础

二　学习率为什么一般设置的比较小？

动手学习深度学习－Pytorch：夯基础
可以看到只有保证（学习率＊f(x)）的倒数足够小的时候，才能带人泰勒展开式进行近似计算，保证损失函数在迭代过程中逐渐收敛，而当学习率太大时，使前面提到的一阶泰勒展开公式不再成立：这时我们无法保证迭代 $x$ 会降低 $f(x)$ 的值。

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode