【问题标题】:How to interpret this loss curve of textsum model?如何解释 textsum 模型的这个损失曲线?
【发布时间】:2017-08-15 22:42:13
【问题描述】:

我一直在训练 textsum seq2seq w/attention 模型,用于在包含 60 万篇文章和摘要的训练语料库上进行抽象摘要。这算不算收敛?如果是这样,它在不到 5k 步后收敛是否正确?注意事项:

  • 我已经训练了 200k 的词汇量
  • 5k 步(直到近似收敛),批量大小为 4 意味着最多可以看到 20k 个不同的样本。这只是整个训练语料库的一小部分。

或者我实际上没有在茶叶中读到我的狗的脸,边际负斜率是否符合预期?

【问题讨论】:

  • 模型显然还在学习。把它平滑一点才能看到它,但很明显在 5k 之后它是 6.2 左右,现在它是 5.8 左右。
  • 您不会碰巧知道收敛时 running_avg_loss 的基准是什么,对吗?我使用了与 textsum 作者相同的超参数,但到目前为止我的输出毫无用处。不,我正在评估这是否与我使用不同的数据集(不是 Gigaword,而是 NYT)有关,是否在模型中引入了一些错误,或者我是否太不耐烦,应该让模型训练 a更多 更长的时间(或者得到一个 GPU,因为我在 CPU atm 上训练这个似乎非常慢)..

标签: tensorflow deep-learning summarization rnn textsum


【解决方案1】:

好的,所以我实际上切换到在 GPU(而不是 CPU)上进行训练,并证明模型仍在学习。这是初始化一个全新模型后的学习曲线:

使用 AWS p2.xlarge NVIDIA K80 的训练速度提高了大约 30 倍。

【讨论】:

    猜你喜欢
    • 2021-05-30
    • 2016-01-17
    • 2018-03-14
    • 2021-11-03
    • 2018-12-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-03-07
    相关资源
    最近更新 更多