梯度下降算法和不同的学习率

【问题标题】：Gradient Descent Algorithm And Different Learning Rates梯度下降算法和不同的学习率
【发布时间】：2020-08-07 04:11:52
【问题描述】：

在梯度下降算法中，我们是否可以在算法的每次迭代中选择不同的学习率直到其收敛？

【问题讨论】：

【解决方案1】：

是的，有多种方法可以根据 epoch/iteration 或 loss-derivative 函数设置超参数。改变梯度下降中的学习率直观地意味着改变步长，其中一个权衡是大步避开局部最优，但可能需要更多步才能收敛。通常从大开始变小是有意义的，但是还有更多优化的方法可以加速/规范拟合和学习率标量的行为

【讨论】：