【发布时间】:2021-09-12 20:24:27
【问题描述】:
我只是想知道是否可以看到所有用于掩码语言建模的预测标记?具体来说,就是所有概率低的token。
例如,考虑这个掩码语言模型:
unmasker("I am feeling <mask> today")
[{'score': 0.5322356820106506,
'sequence': 'I am feeling good today',
'token': 4,
'token_str': good'},
{'score': 0.1725485771894455,
'sequence': 'I am feeling happy today!',
'token': 328,
'token_str': 'happy'},
{'score': 0.1252109706401825,
'sequence': 'I am feeling sad today."',
'token': 72,
'token_str': 'sad"'},
{'score': 0.01904081553220749,
'sequence': 'I am feeling angry today!"',
'token': 2901,
'token_str': 'angry'},
{'score': 0.012199202552437782,
'sequence': 'I am feeling fun today…',
'token': 1174,
'token_str': 'fun'}]
从我的输出中可以看出,排名靠前的标记是“good”、“happy”、“sad”、“angry”和“fun”。但是,是否有可能看到前 5 名之外的所有预测令牌?
我只想查看所有预测标记的列表:概率最低的标记 - 如果可能的话。
我不想看到预测的前 5 名;我想看到所有这些。
谢谢。
【问题讨论】:
标签: python nlp bert-language-model huggingface-transformers huggingface-tokenizers