【问题标题】:Training Method Choice for seq2seq modelseq2seq 模型的训练方法选择
【发布时间】:2017-09-16 14:23:03
【问题描述】:

对于训练基于注意力的序列到序列神经机器翻译模型,您可能会推荐哪种训练方法? SGD、Adadelta、Adam 还是更好的?请给点建议,谢谢。

【问题讨论】:

    标签: deep-learning sequence-to-sequence attention-model


    【解决方案1】:

    使用自适应梯度算法,例如 Adam、Adadelta 或 RMSProp。我倾向于使用 Adam,并且总是与剪裁渐变结合使用。

    自适应梯度算法对每个参数都有学习率。当您的模型中某些参数可能更稀疏(提高其学习率)或不稀疏(降低其学习率)时,这非常有用。如果您正在使用神经机器翻译之类的东西,那么这种稀疏性就是一个问题。我想 Adam 在计算上的开销更大一些,但结果很好。

    【讨论】:

      猜你喜欢
      • 2018-05-01
      • 2017-11-21
      • 1970-01-01
      • 2019-10-20
      • 2020-02-22
      • 1970-01-01
      • 2017-08-19
      • 2020-09-15
      • 2021-05-17
      相关资源
      最近更新 更多