论文笔记：On the Strength of Character Language Models for Multilingual Named Entity Recognition

简介

本文提出了一种简单的、语料库无关的Character-level Language Model（CLM）。该方法不需要上下文信息即可判断token是否是entity。作者进一步将该方法用于一些经典的NER系统中以提高其识别效果。

Methods

在CLM中，每一个token都被看成一个句子，每个字母看做一个词，比如“Obama”会被看做句子“O b a m a”，以此训练语言模型。
本文方法在entity tokens和nonentity tokens上各训练一个CLM。然后比较token在entity CLM和nonentity CLM上的困惑度，在entity CLM上困惑度低则认为其是entity，否则是nonentity。
训练CLM的语言模型作者尝试了四个：N-gram model, Skip-gram model，CBOW和Log-Bilinear model (LB)。根据效果最终选取了N-gram model.
论文笔记：On the Strength of Character Language Models for Multilingual Named Entity Recognition
实验结果（F1）：

上图中，本文方法（SRILM）虽然比不上最后两行的系统，但是SRILM方法简单，不需要上下文等信息。

Improving NER with CLM features

本文方法只能识别出token是否是entity，弱于一般的NER系统。但是其可以用来增强已有的NER系统。利用本文方法可以给NER系统添加feature。文章中给出了两种feature：

Entity Feature

第一种是根据本文方法给token添加其是否是entity的信息。

Language Feature

英语中有很多外来名字，因此给命名实体识别带来了阻碍。利用本文方法在，在Arabic和Russian上各训练一个CLM，根据这两个CLM可以得到一个Arabic和Russian中的entity表，据此可以给NER系统提供是否是外来词的信息。

实验显示上述feature可以在一定程度上提高NER系统表现。