如何解释 textsum 模型的这个损失曲线？答案

【问题标题】：How to interpret this loss curve of textsum model?如何解释 textsum 模型的这个损失曲线？
【发布时间】：2017-08-15 22:42:13
【问题描述】：

我一直在训练 textsum seq2seq w/attention 模型，用于在包含 60 万篇文章和摘要的训练语料库上进行抽象摘要。这算不算收敛？如果是这样，它在不到 5k 步后收敛是否正确？注意事项：

或者我实际上没有在茶叶中读到我的狗的脸，边际负斜率是否符合预期？

【问题讨论】：

模型显然还在学习。把它平滑一点才能看到它，但很明显在 5k 之后它是 6.2 左右，现在它是 5.8 左右。
您不会碰巧知道收敛时 running_avg_loss 的基准是什么，对吗？我使用了与 textsum 作者相同的超参数，但到目前为止我的输出毫无用处。不，我正在评估这是否与我使用不同的数据集（不是 Gigaword，而是 NYT）有关，是否在模型中引入了一些错误，或者我是否太不耐烦，应该让模型训练 a更多 更长的时间（或者得到一个 GPU，因为我在 CPU atm 上训练这个似乎非常慢）..

【解决方案1】：

好的，所以我实际上切换到在 GPU（而不是 CPU）上进行训练，并证明模型仍在学习。这是初始化一个全新模型后的学习曲线：

使用 AWS p2.xlarge NVIDIA K80 的训练速度提高了大约 30 倍。

【讨论】：