这是一篇发表在AAAI2020上的一篇文章,附上链接:https://aaai.org/ojs/index.php/AAAI/article/view/6233

方法名为LAMBADA(Language Model Based Data Augmentation),核心思路为:

用于文本分类的数据增强方法

下面看一下每个步骤具体实施的过程:

  1. 选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器,第四步的时候要用。
  2. 这一步得到一个用于生成句子的模型:把训练集的数据组织成ySEPxEOS的格式,y是类别标签,SEP作为分隔符,x是需要分类的句子,EOS作为结束符。然后微调一个预训练好的语言模型,论文中使用的是GTP-2。这一步的主要目的是,微调之后给定一个类别标签,这个微调过的语料模型就能把后面的内容补全,从而生成对应类别标签y的句子x。
  3. 在上一步得到模型之后,每给模型一个ySEP。这个语言模型就能生成相应类别的句子。这样做的好处是每个类别都能生成数量相当的句子,不会造成类别上的不平衡。这样就可以得到合成的(synthesized)训练集。
  4. 利用第一步得到的分类器,过滤合成训练集中质量比较低的样本,提高构造数据的质量,得到我们最终需要的样本。

总结:

让我感到比较新奇的地方就是:我们之前都是给一个句子,判断句子的类别。这篇文章实现了给一个类别,能生成相应的句子。可能之前也有工作做了这个东西,不过我是没看到。

相关文章:

  • 2021-05-03
  • 2021-10-15
  • 2021-12-12
  • 2021-05-13
  • 2021-06-17
  • 2021-10-29
  • 2021-09-28
  • 2022-12-23
猜你喜欢
  • 2021-08-04
  • 2022-01-22
  • 2021-12-23
  • 2021-07-16
  • 2021-11-29
  • 2021-04-21
相关资源
相似解决方案