【问题标题】:Transformer based decoding基于变压器的解码
【发布时间】:2019-10-10 05:38:46
【问题描述】:

transformer 模型中的解码器可以像编码器一样并行化吗?据我了解,编码器具有序列中的所有标记来计算自注意力分数。但是对于解码器来说,这是不可能的(在训练和测试中),因为自我注意力是根据之前的时间步输出计算的。即使我们考虑使用诸如teacher forcing之类的技术,我们将预期输出与得到的输出连接起来,这仍然具有来自前一个时间步的顺序输入。在这种情况下,除了在捕获长期依赖项方面的改进之外,在纯粹基于并行化进行比较时,使用转换器解码器是否比使用 lstm 更好?

【问题讨论】:

    标签: deep-learning transformer seq2seq encoder-decoder sequence-modeling


    【解决方案1】:

    您是正确的,LSTM 解码器和 Transformer 解码器一次处理一个令牌,即它们不会在输出令牌上并行化。原始的 Transformer 架构没有并行化解码器;只有在编码器中是并行处理的令牌序列。有关 Transformer 架构和训练/测试过程的详细摘要,您可以查看this article

    【讨论】:

      猜你喜欢
      • 2022-01-05
      • 2022-11-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-06-23
      • 1970-01-01
      • 1970-01-01
      • 2011-03-18
      相关资源
      最近更新 更多