【问题标题】:Attention network without hidden state?没有隐藏状态的注意力网络?
【发布时间】:2020-08-11 11:23:52
【问题描述】:

我想知道编码器的隐藏状态对于注意力网络有多大用处。当我查看注意力模型的结构时,我发现模型通常是这样的:

  • x:输入。
  • h:编码器的隐藏状态,前馈到下一个 编码器的隐藏状态。
  • s:解码器的隐藏状态 作为输入和馈送的所有编码器隐藏状态的加权和 前进到下一个解码器的隐藏状态。
  • y:输出。

对于像翻译这样的过程,为什么编码器的隐藏状态首先前馈或存在很重要?我们已经知道下一个 x 会是什么。因此,输入的顺序对于输出的顺序并不一定很重要,因为注意力模型同时查看所有输入,所以从前一个输入中记忆的内容也不一定重要。你不能直接在 x 的嵌入上使用注意力吗?

谢谢!

【问题讨论】:

    标签: machine-learning recurrent-neural-network translate attention-model


    【解决方案1】:

    您可以轻松地尝试并看到您会得到非常糟糕的结果。即使您在输入嵌入中添加了一些位置编码,结果也会很糟糕。

    顺序很重要。句子:

    • 约翰爱玛丽。
    • 结婚爱约翰。

    确实有不同的含义。此外,订单不是您从编码器获得的唯一信息。编码器也会输入消歧:单词可以是同音词,例如“train”(参见https://arxiv.org/pdf/1908.11771.pdf)。此外,对经过训练的神经网络的探索表明,编码器对输入句子进行了非常抽象的表示(参见https://arxiv.org/pdf/1911.00317.pdf),并且大部分翻译实际上已经发生在编码器中(参见https://arxiv.org/pdf/2003.09586.pdf)。

    【讨论】:

      猜你喜欢
      • 2018-07-01
      • 2018-07-17
      • 2023-03-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-04
      相关资源
      最近更新 更多