seq2seq 模型的训练方法选择

【问题标题】：Training Method Choice for seq2seq modelseq2seq 模型的训练方法选择
【发布时间】：2017-09-16 14:23:03
【问题描述】：

对于训练基于注意力的序列到序列神经机器翻译模型，您可能会推荐哪种训练方法？ SGD、Adadelta、Adam 还是更好的？请给点建议，谢谢。

【问题讨论】：

【解决方案1】：

使用自适应梯度算法，例如 Adam、Adadelta 或 RMSProp。我倾向于使用 Adam，并且总是与剪裁渐变结合使用。

自适应梯度算法对每个参数都有学习率。当您的模型中某些参数可能更稀疏（提高其学习率）或不稀疏（降低其学习率）时，这非常有用。如果您正在使用神经机器翻译之类的东西，那么这种稀疏性就是一个问题。我想 Adam 在计算上的开销更大一些，但结果很好。

【讨论】：