没有隐藏状态的注意力网络？答案

【问题标题】：Attention network without hidden state?没有隐藏状态的注意力网络？
【发布时间】：2020-08-11 11:23:52
【问题描述】：

我想知道编码器的隐藏状态对于注意力网络有多大用处。当我查看注意力模型的结构时，我发现模型通常是这样的：

x：输入。
h：编码器的隐藏状态，前馈到下一个编码器的隐藏状态。
s：解码器的隐藏状态作为输入和馈送的所有编码器隐藏状态的加权和前进到下一个解码器的隐藏状态。
y：输出。

对于像翻译这样的过程，为什么编码器的隐藏状态首先前馈或存在很重要？我们已经知道下一个 x 会是什么。因此，输入的顺序对于输出的顺序并不一定很重要，因为注意力模型同时查看所有输入，所以从前一个输入中记忆的内容也不一定重要。你不能直接在 x 的嵌入上使用注意力吗？

谢谢！

【问题讨论】：

标签： machine-learning recurrent-neural-network translate attention-model

【解决方案1】：

您可以轻松地尝试并看到您会得到非常糟糕的结果。即使您在输入嵌入中添加了一些位置编码，结果也会很糟糕。

顺序很重要。句子：

约翰爱玛丽。
结婚爱约翰。

确实有不同的含义。此外，订单不是您从编码器获得的唯一信息。编码器也会输入消歧：单词可以是同音词，例如“train”（参见https://arxiv.org/pdf/1908.11771.pdf）。此外，对经过训练的神经网络的探索表明，编码器对输入句子进行了非常抽象的表示（参见https://arxiv.org/pdf/1911.00317.pdf），并且大部分翻译实际上已经发生在编码器中（参见https://arxiv.org/pdf/2003.09586.pdf）。

【讨论】：