机器学习项目中该如何选择优化器

一些最常用的优化器
不同优化器及其优缺点

一些最常用的优化器

w表示参数，g表示模型的梯度，α为每个优化器的全局学习率，t为时间步长

Stochastic Gradient Descent (SGD)

在SGD中，优化器基于一个小batch估计最陡下降的方向，并在这个方向前进一步。由于步长是固定的，SGD会很快陷入平坦区或陷入局部极小值。
SGD with Momentum

其中β < 1，使用了动量，SGD可以在持续的方向上进行加速（这就是为什么也被叫做“重球方法”）。这个加速可以帮助模型摆脱平坦区，使它更不容易陷入局部最小值。
AdaGrad

AdaGrad是首个成功的利用自适应学习率的方法之一(因此得名)。AdaGrad根据梯度的平方和的倒数的平方根来衡量每个参数的学习速率。这个过程将稀疏梯度方向上的梯度放大，从而允许在这些方向上执行更大的步骤。其结果是：AdaGrad在具有稀疏特征的场景中收敛速度更快。
RMSprop

RMSprop是一个未发布的优化器，在过去几年中被过度使用。这个想法与AdaGrad相似，但是梯度的重新缩放不那么激进：梯度的平方的总和被梯度平方的移动平均值所取代。RMSprop通常与动量一起使用，可以理解为Rprop对mini-batch设置的适应。
Adam

Adam将AdaGrad，RMSprop和动量法结合在一起。步长方向由梯度的移动平均值决定，步长约为全局步长的上界。此外，梯度的每个维度都被重新缩放，类似于RMSprop。Adam和RMSprop(或AdaGrad)之间的一个关键区别是，矩估计m和v被纠正为偏向于零。Adam以通过少量的超参数调优就能获得良好性能而闻名。
LARS

LARS是使用动量的SGD的一种扩展，具有适应每层学习率的能力。它最近引起了研究界的注意。原因是由于可用数据量的稳步增长，机器学习模型的分布式训练已经流行起来。其结果是批大小开始增长。然而，这导致了训练中的不稳定。Yang等人认为，这些不稳定性源于某些层的梯度范数和权重范数之间的不平衡。因此，他们提出了一个优化器，该优化器基于一个“trust”参数η < 1和该层的梯度的范数的倒数，对每一层的学习率进行缩放。

不同优化器及其优缺点

机器学习项目中该如何选择优化器
例子：对于你当前工作的项目，你必须将用户反馈分为积极反馈和消极反馈。你考虑使用bag-of-words作为机器学习模型的输入特征。由于这些特征可能非常稀疏，你决定使用自适应梯度的方法。但是你想用哪一种呢？考虑上表，你看到看到AdaGrad具有自适应梯度方法中最少的可调参数。看到你的项目有限的时间表，你选择了AdaGrad作为优化器。
你的项目所具有资源是什么？
项目中可用的资源也会影响选择哪个优化器。计算限制或内存约束，以及项目的时间表可以缩小可行选择的范围。再次查看上表，你可以看到不同的内存需求和每个优化器的可调参数数量。此信息可以帮助你评估你的设置是否支持优化器所需的资源。
例子：你在做一个项目，在该项目中，你想在家用计算机上的图像数据集上训练一个自监督模型(例如SimCLR)。对于SimCLR这样的模型，性能随着batch size大小的增加而增加。因此，你希望尽可能地节省内存，以便能够进行大batch的训练。你选择一个简单的不带动量的随机梯度下降作为你的优化器，因为与其他优化器相比，它需要最少的额外内存来存储状态。