一 随机梯度下降为什么可以代替梯度下降最终实现收敛?

动手学习深度学习-Pytorch:夯基础

二 学习率为什么一般设置的比较小?

动手学习深度学习-Pytorch:夯基础
可以看到只有保证(学习率*f(x))的倒数足够小的时候,才能带人泰勒展开式进行近似计算,保证损失函数在迭代过程中逐渐收敛,而当学习率太大时,使前面提到的一阶泰勒展开公式不再成立:这时我们无法保证迭代xx会降低f(x)f(x)的值。

相关文章: