文章作者:Yue Zhang and Jie Yang

源码链接:https://github.com/jiesutd/LatticeLSTM

解决问题:中文命名实体识别

使用深度学习框架:Pytorch

基本解题思路:word2vec、LSTM+CRF

(1)word2vec:预训练字符级向量(character embedding)和词语级向量(word embedding),以及bigram二元字符级向量。中文分词采用BMES形式标注,训练深度学习自动分词模型。

(2)RNN典型应用之一:序列到序列的映射。RNN得到的隐藏单元序列,后接CRF层,得到特定的标注序列的概率。NER标注采用BIOES形式。

创新点:字符级LSTM结合(可能的)词语级LSTM单元组件,构成栅格状LSTM+CRF结构。

(1)以“字符”LSTM+CRF结构为基础,加入可能的“词语”LSTM单元组件。

(2)优势:有效的利用了字符级信息和文本中含有的所有可能的词语级信息。不依赖于固定的分词结果,有效的选择语境中所有可能的词语,避免预先分词的误差,还可能发现OOV的词语组成的命名实体。

(3)可能的弊端:随着文本长度增加,可能的词语数增加,栅格状LSTM结构复杂度升高,对于文本非常长的应用场景,这种栅格状LSTM的文本表示方式,模型复杂度较高,效果提升和付出的代价可能不成正比了。文中给出了模型在OntoNotes数据集上NER F1值随文本长度变化的图。可见文本在一定范围内,栅格状LSTM+CRF模型,与char-based LSTM+CRF、word-based LSTM+CRF及变体模型相比较,有一定的优势。可能的应用:在短文本的向量化表示中优势比较大,比如微博文本限定在140字符以内,延伸的微博文本情感分析、命名实体识别、事件提取等应用均可考虑采用这种栅格状模型。

栅格状LSTM结构图:

《Chinese NER Using Lattice LSTM》阅读笔记

整体框架图:

《Chinese NER Using Lattice LSTM》阅读笔记

依赖技术:中文分词、word2vec、RNN、LSTM、CRF、CNN。

公式及源码解析未完待续。

后续应用:中文关系提取。(清华大学刘知远团队)

相关文章: