【发布时间】:2020-08-08 15:49:22
【问题描述】:
我正在寻找有关使用 Bert 和 Bert 的掩码语言模型来预测多个标记的建议。
我的数据如下:
上下文:some very long context paragraph
问题:rainy days lead to @placeholder 而这个@placeholder 的答案是wet weather。在模型中,wet environment 是预测的答案。
那么在预处理阶段,我应该将文本更改为rainy days lead to [MASK] 还是rainy days lead to [MASK] [MASK] 之类的东西?我知道masked LM在单token预测上效果很好,你认为masked LM在多token预测上效果很好吗?如果没有,您对如何预处理和训练这类数据有什么建议吗?
非常感谢!
【问题讨论】:
标签: python bert-language-model