是否可以查看掩码语言建模的所有令牌排名？答案

【问题标题】：Is it possible to see all the token rankings for masked language modelling?是否可以查看掩码语言建模的所有令牌排名？
【发布时间】：2021-09-12 20:24:27
【问题描述】：

我只是想知道是否可以看到所有用于掩码语言建模的预测标记？具体来说，就是所有概率低的token。

例如，考虑这个掩码语言模型：

unmasker("I am feeling <mask> today")

[{'score': 0.5322356820106506,
  'sequence': 'I am feeling good today',
  'token': 4,
  'token_str': good'},
 {'score': 0.1725485771894455,
  'sequence': 'I am feeling happy today!',
  'token': 328,
  'token_str': 'happy'},
 {'score': 0.1252109706401825,
  'sequence': 'I am feeling sad today."',
  'token': 72,
  'token_str': 'sad"'},
 {'score': 0.01904081553220749,
  'sequence': 'I am feeling angry today!"',
  'token': 2901,
  'token_str': 'angry'},
 {'score': 0.012199202552437782,
  'sequence': 'I am feeling fun today…',
  'token': 1174,
  'token_str': 'fun'}]

从我的输出中可以看出，排名靠前的标记是“good”、“happy”、“sad”、“angry”和“fun”。但是，是否有可能看到前 5 名之外的所有预测令牌？

我只想查看所有预测标记的列表：概率最低的标记 - 如果可能的话。

我不想看到预测的前 5 名；我想看到所有这些。

谢谢。

【问题讨论】：

标签： python nlp bert-language-model huggingface-transformers huggingface-tokenizers

【解决方案1】：

如果您查看文档或源代码，您可以将 top_k 参数 (https://github.com/huggingface/transformers/blob/master/src/transformers/pipelines/fill_mask.py) 传递给调用。

它可能会像下面这样（我没有测试过）：

unmasker("I am feeling <mask> today", top_k=10)

【讨论】：