【问题标题】:AttentionDecoderRNN without MAX_LENGTH没有 MAX_LENGTH 的 AttentionDecoderRNN
【发布时间】:2018-07-19 19:06:42
【问题描述】:

来自 PyTorch Seq2Seq 教程,http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder

我们看到注意力机制严重依赖MAX_LENGTH 参数来确定attn -> attn_softmax -> attn_weights 的输出维度,即

class AttnDecoderRNN(nn.Module):
    def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
        super(AttnDecoderRNN, self).__init__()
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.dropout_p = dropout_p
        self.max_length = max_length

        self.embedding = nn.Embedding(self.output_size, self.hidden_size)
        self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
        self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
        self.dropout = nn.Dropout(self.dropout_p)
        self.gru = nn.GRU(self.hidden_size, self.hidden_size)
        self.out = nn.Linear(self.hidden_size, self.output_size)

更具体

self.attn = nn.Linear(self.hidden_size * 2, self.max_length)

我知道MAX_LENGTH 变量是减少数字的机制。需要在AttentionDecoderRNN 中训练的参数。

如果我们没有预先确定 MAX_LENGTH我们应该用什么值来初始化attn 层?

会是output_size吗?如果是这样,那将是学习目标语言中完整词汇的注意力。这不是 Bahdanau (2015) 关注论文的真正意图吗?

【问题讨论】:

  • 您是否考虑过局部关注而不是全局关注?
  • 还没有,但如果它是全球性的,一定有某种最大值?只是为了便于处理不是吗?从理论上讲,它可以将所有源词都关注到所有目标词,对吧?只是如果 max_length = no。目标词,对于句子对,源中不存在的任何词都将为零。

标签: recurrent-neural-network pytorch machine-translation sequence-to-sequence attention-model


【解决方案1】:

注意力调制解码器的输入。即注意力调制与输入序列长度相同的编码序列。因此,MAX_LENGTH 应该是所有输入序列的最大序列长度。

【讨论】:

    猜你喜欢
    • 2021-04-23
    • 2015-08-31
    • 2019-05-27
    • 1970-01-01
    • 2011-03-13
    • 1970-01-01
    • 2020-09-05
    • 1970-01-01
    • 2012-01-19
    相关资源
    最近更新 更多