该模型的核心思想是:通过 Lattice LSTM 表示句子中的单词,将潜在的词汇信息融合到基于字符的 LSTM-CRF中。实际上,该模型的主干部分依然是基于字符的LSTM-CRF,只不过这个LSTM每个Cell内部的信息处理方式与基本的LSTM不同。

目前英文NER效果最佳的模型是 LSTM-CRF,对于中文 NER,也可以使用这种模型。不过,中文文本不同于英文文本,需要预先对其进行分词(基于字的方法),尽管分词工具有很多(中科院 ICTCLAS、哈工大语言云、Python的 jieba 和 SnowNLP 等),但是分词效果不太可能是完美的。通俗来说,NER就是通过序列标注对实体边界和实体类别进行预测,从而识别和提取出相应的命名实体。所以,一旦出现分词错误,就会直接影响实体边界的预测,导致识别错误,这在开放领域是很严重的问题。

为了避免上述问题,研究者们开始尝试基于字符的方法。该方法无需分词,以每个字符为单位进行训练。虽然训练集规模变大,训练时间变长,但是研究表明,对于中文NER,基于字符的方法优于基于字的方法。但是,可以想到,由于没有进行分词,所以基于字符的方法无法利用句子中的单词信息,这也会使得识别效果有瑕疵。举个例子,比如一句话“南京市长江大桥”,如果没有单词信息,识别结果很可能为:“南京“,”市长”,“江大桥”。

这篇文章针对中文NER提出了一种网格结构的 LSTM 模型(Lattice LSTM),如下图所示。相比基于字符的方法(character-based),能够充分利用单词和词序信息;相比基于字的方法(word-based),不会因为分词错误影响识别结果。
Chinese NER Using Lattice LSTM

相关文章:

  • 2021-07-30
  • 2021-12-22
  • 2021-07-23
  • 2022-12-23
  • 2021-04-21
  • 2021-11-29
  • 2021-09-13
猜你喜欢
  • 2021-10-24
  • 2022-01-21
  • 2021-09-11
  • 2021-07-09
相关资源
相似解决方案