我可以只使用掩码语言模型和下一句预测来微调 BERT 吗？答案

【问题标题】：Can I fine-tune BERT using only masked language model and next sentence prediction?我可以只使用掩码语言模型和下一句预测来微调 BERT 吗？
【发布时间】：2022-02-01 20:13:22
【问题描述】：

所以，如果我理解正确的话，主要有两种方法可以让 BERT 适应特定任务：微调（所有权重都发生变化，甚至是预训练的权重）和基于特征的（预训练的权重被冻结）。但是，我很困惑。

什么时候使用哪一个？如果您有未标记的数据（无监督学习），您是否应该使用微调？
如果我想微调 BERT，使用掩码语言模型和下一句预测不是唯一的选择吗？还有：是否有必要在上面再放一层神经网络？

谢谢。

【问题讨论】：

标签： nlp bert-language-model

【解决方案1】：

您的第一种方法应该是尝试预先训练的权重。一般来说，它运作良好。但是，如果您正在研究不同的领域（例如：医学），那么您需要对来自新领域的数据进行微调。同样，您可能能够在域上找到预训练模型（例如：BioBERT）。

对于添加层，根据您的任务，方法会略有不同。例如：对于问答，请查看TANDA 论文（Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection）。这是一篇非常易读的论文，解释了迁移和适应策略。同样，Hugging-face 已经针对大多数标准任务修改和预训练了模型。

【讨论】：

谢谢。我正在为（我的）语言进行词义归纳，目前只有“基本”伯特模型。我已经看到一些使用掩码语言建模的英语任务实现，所以我在徘徊，如果掩码语言模型只是微调 BERT 的方法还是它是强制性步骤？
是的，如果您从头开始，传销是培训的标准。然而，没有什么是强制性的。