TensorFlow 中的优化器

【问题标题】：Optimizers in TensorflowTensorFlow 中的优化器
【发布时间】：2016-05-25 17:05:18
【问题描述】：

从 Tensorflow (translation, ptb) 的各种示例中，您似乎需要在使用 GradientDescentOptimizer 时显式更改学习率。但是在使用一些更“复杂”的技术（如 Adagrad、Adadelta 等）时是否会出现这种情况。此外，当我们从保存的实例继续训练模型时，这些优化器使用的过去值是否保存在模型文件中？

【问题讨论】：

标签： optimization tensorflow

【解决方案1】：

这取决于您使用的优化器。 Vanilla SGD 需要（接受）学习率的个体调整。其他一些人这样做。例如，Adadelta 没有。 (https://arxiv.org/abs/1212.5701)

因此，这主要取决于您使用的优化器的数学背景，而不是 Tensorflow。

此外：是的，保存并重新开始训练不会重置学习率，而是在保存的点继续。

【讨论】：