【发布时间】:2021-09-28 08:09:08
【问题描述】:
我有一些自定义数据想用于进一步预训练 BERT 模型。到目前为止,我已经尝试了以下两种方法:
- 从预训练的 BERT 检查点开始,然后使用 Masked Language Modeling (
MLM) + Next Sentence Prediction (NSP) 头继续预训练(例如,使用 BertForPreTraining 型号) - 从具有
MLM目标的预训练 BERT 模型开始(例如,使用 BertForMaskedLM 模型,假设我们不需要 NSP 进行预训练部分。)
但我仍然感到困惑的是,如果使用 BertForPreTraining 或 BertForMaskedLM 实际上对 BERT 进行了持续的预训练,或者这些只是用于微调的两个模型分别使用 MLM+NSP 和 MLM 来微调 BERT。使用 MLM+NSP 微调 BERT 或使用这两个头不断预训练它之间有什么区别吗?或者这是我们需要测试的东西?
我已经查看了类似的问题,例如 this one,但我仍然想确保从技术上讲,从初始检查点持续预训练模型和使用相同的目标/头部对其进行微调之间是否存在差异.
【问题讨论】:
标签: deep-learning nlp huggingface-transformers bert-language-model pre-trained-model