基于变压器的解码答案

【问题标题】：Transformer based decoding基于变压器的解码
【发布时间】：2019-10-10 05:38:46
【问题描述】：

transformer 模型中的解码器可以像编码器一样并行化吗？据我了解，编码器具有序列中的所有标记来计算自注意力分数。但是对于解码器来说，这是不可能的（在训练和测试中），因为自我注意力是根据之前的时间步输出计算的。即使我们考虑使用诸如teacher forcing之类的技术，我们将预期输出与得到的输出连接起来，这仍然具有来自前一个时间步的顺序输入。在这种情况下，除了在捕获长期依赖项方面的改进之外，在纯粹基于并行化进行比较时，使用转换器解码器是否比使用 lstm 更好？

【问题讨论】：

标签： deep-learning transformer seq2seq encoder-decoder sequence-modeling

【解决方案1】：

您是正确的，LSTM 解码器和 Transformer 解码器一次处理一个令牌，即它们不会在输出令牌上并行化。原始的 Transformer 架构没有并行化解码器；只有在编码器中是并行处理的令牌序列。有关 Transformer 架构和训练/测试过程的详细摘要，您可以查看this article。

【讨论】：