【发布时间】:2020-08-24 13:10:46
【问题描述】:
考虑如下所示的一组 4 个预处理句子(标记化、数字化和填充):
batch = torch.tensor([
[1, 2, 0, 0],
[4, 0, 0, 0],
[3, 5, 6, 7]
])
0 表示 [PAD] 令牌的位置。
因此,生成与batch 形状相同的padding masking 张量在[PAD] 位置分配零并将1 分配给其他输入数据(句子标记)的有效方法是什么?
在上面的例子中,它会是这样的:
padding_masking=
tensor([
[1, 1, 0, 0],
[1, 0, 0, 0],
[1, 1, 1, 1]
])
【问题讨论】:
标签: pytorch huggingface-transformers torchtext