【发布时间】:2017-09-16 14:23:03
【问题描述】:
对于训练基于注意力的序列到序列神经机器翻译模型,您可能会推荐哪种训练方法? SGD、Adadelta、Adam 还是更好的?请给点建议,谢谢。
【问题讨论】:
标签: deep-learning sequence-to-sequence attention-model
对于训练基于注意力的序列到序列神经机器翻译模型,您可能会推荐哪种训练方法? SGD、Adadelta、Adam 还是更好的?请给点建议,谢谢。
【问题讨论】:
标签: deep-learning sequence-to-sequence attention-model
使用自适应梯度算法,例如 Adam、Adadelta 或 RMSProp。我倾向于使用 Adam,并且总是与剪裁渐变结合使用。
自适应梯度算法对每个参数都有学习率。当您的模型中某些参数可能更稀疏(提高其学习率)或不稀疏(降低其学习率)时,这非常有用。如果您正在使用神经机器翻译之类的东西,那么这种稀疏性就是一个问题。我想 Adam 在计算上的开销更大一些,但结果很好。
【讨论】: