简介

本文提出了一种简单的、语料库无关的Character-level Language Model(CLM)。该方法不需要上下文信息即可判断token是否是entity。作者进一步将该方法用于一些经典的NER系统中以提高其识别效果。

Methods

在CLM中,每一个token都被看成一个句子,每个字母看做一个词,比如“Obama”会被看做句子“O b a m a”,以此训练语言模型。
本文方法在entity tokens和nonentity tokens上各训练一个CLM。然后比较token在entity CLM和nonentity CLM上的困惑度,在entity CLM上困惑度低则认为其是entity,否则是nonentity。
训练CLM的语言模型作者尝试了四个:N-gram model, Skip-gram model,CBOW和Log-Bilinear model (LB)。根据效果最终选取了N-gram model.
论文笔记:On the Strength of Character Language Models for Multilingual Named Entity Recognition
实验结果(F1):
论文笔记:On the Strength of Character Language Models for Multilingual Named Entity Recognition
上图中,本文方法(SRILM)虽然比不上最后两行的系统,但是SRILM方法简单,不需要上下文等信息。

Improving NER with CLM features

本文方法只能识别出token是否是entity,弱于一般的NER系统。但是其可以用来增强已有的NER系统。利用本文方法可以给NER系统添加feature。文章中给出了两种feature:

Entity Feature

第一种是根据本文方法给token添加其是否是entity的信息。

Language Feature

英语中有很多外来名字,因此给命名实体识别带来了阻碍。利用本文方法在,在Arabic和Russian上各训练一个CLM,根据这两个CLM可以得到一个Arabic和Russian中的entity表,据此可以给NER系统提供是否是外来词的信息。

实验显示上述feature可以在一定程度上提高NER系统表现。

相关文章:

  • 2021-07-30
  • 2021-12-06
  • 2021-07-20
  • 2021-11-22
  • 2021-07-22
  • 2021-08-24
  • 2022-12-23
  • 2021-12-12
猜你喜欢
  • 2021-08-15
  • 2021-05-08
  • 2021-07-19
  • 2021-09-02
  • 2022-01-01
  • 2021-04-23
相关资源
相似解决方案