【发布时间】:2020-12-12 08:19:34
【问题描述】:
我正在使用 pytorch nn.MultiheadAttention 在变压器编码器中实现自我注意部分,并且在变压器的填充掩码中感到困惑。
下图是query(行)和key(列)的self-attention权重。
如您所见,有一些标记“
还有两个问题:
-
在查询部分,除了红色方块部分,我还可以屏蔽它们(“
”)吗?这合理吗? -
如何在查询中屏蔽“
”?
注意力权重还通过在src_mask 或src_key_padding_mask 参数中提供掩码,沿行使用softmax 函数。如果我将所有“-inf,softmax 将返回nan,损失为nan
【问题讨论】:
标签: python pytorch transformer attention-model