【发布时间】:2020-08-11 11:23:52
【问题描述】:
我想知道编码器的隐藏状态对于注意力网络有多大用处。当我查看注意力模型的结构时,我发现模型通常是这样的:
- x:输入。
- h:编码器的隐藏状态,前馈到下一个 编码器的隐藏状态。
- s:解码器的隐藏状态 作为输入和馈送的所有编码器隐藏状态的加权和 前进到下一个解码器的隐藏状态。
- y:输出。
对于像翻译这样的过程,为什么编码器的隐藏状态首先前馈或存在很重要?我们已经知道下一个 x 会是什么。因此,输入的顺序对于输出的顺序并不一定很重要,因为注意力模型同时查看所有输入,所以从前一个输入中记忆的内容也不一定重要。你不能直接在 x 的嵌入上使用注意力吗?
谢谢!
【问题讨论】:
标签: machine-learning recurrent-neural-network translate attention-model