【问题标题】:Can I fine-tune BERT using only masked language model and next sentence prediction?我可以只使用掩码语言模型和下一句预测来微调 BERT 吗?
【发布时间】:2022-02-01 20:13:22
【问题描述】:

所以,如果我理解正确的话,主要有两种方法可以让 BERT 适应特定任务:微调(所有权重都发生变化,甚至是预训练的权重)和基于特征的(预训练的权重被冻结)。但是,我很困惑。

  1. 什么时候使用哪一个?如果您有未标记的数据(无监督学习),您是否应该使用微调?
  2. 如果我想微调 BERT,使用掩码语言模型和下一句预测不是唯一的选择吗?还有:是否有必要在上面再放一层神经网络?

谢谢。

【问题讨论】:

    标签: nlp bert-language-model


    【解决方案1】:

    您的第一种方法应该是尝试预先训练的权重。一般来说,它运作良好。但是,如果您正在研究不同的领域(例如:医学),那么您需要对来自新领域的数据进行微调。同样,您可能能够在域上找到预训练模型(例如:BioBERT)。

    对于添加层,根据您的任务,方法会略有不同。例如:对于问答,请查看TANDA 论文(Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection)。这是一篇非常易读的论文,解释了迁移和适应策略。同样,Hugging-face 已经针对大多数标准任务修改和预训练了模型。

    【讨论】:

    • 谢谢。我正在为(我的)语言进行词义归纳,目前只有“基本”伯特模型。我已经看到一些使用掩码语言建模的英语任务实现,所以我在徘徊,如果掩码语言模型只是微调 BERT 的方法还是它是强制性步骤?
    • 是的,如果您从头开始,传销是培训的标准。然而,没有什么是强制性的。
    猜你喜欢
    • 2021-09-30
    • 1970-01-01
    • 2021-11-21
    • 2021-06-30
    • 2020-07-03
    • 2019-08-02
    • 1970-01-01
    • 2021-06-16
    相关资源
    最近更新 更多