《Chinese NER Using Lattice LSTM》阅读笔记

文章作者：Yue Zhang and Jie Yang

源码链接：https://github.com/jiesutd/LatticeLSTM

解决问题：中文命名实体识别

使用深度学习框架：Pytorch

基本解题思路：word2vec、LSTM+CRF

（1）word2vec：预训练字符级向量(character embedding)和词语级向量(word embedding)，以及bigram二元字符级向量。中文分词采用BMES形式标注，训练深度学习自动分词模型。

（2）RNN典型应用之一：序列到序列的映射。RNN得到的隐藏单元序列，后接CRF层，得到特定的标注序列的概率。NER标注采用BIOES形式。

创新点：字符级LSTM结合(可能的)词语级LSTM单元组件，构成栅格状LSTM+CRF结构。

（1）以“字符”LSTM+CRF结构为基础，加入可能的“词语”LSTM单元组件。

（2）优势：有效的利用了字符级信息和文本中含有的所有可能的词语级信息。不依赖于固定的分词结果，有效的选择语境中所有可能的词语，避免预先分词的误差，还可能发现OOV的词语组成的命名实体。

（3）可能的弊端：随着文本长度增加，可能的词语数增加，栅格状LSTM结构复杂度升高，对于文本非常长的应用场景，这种栅格状LSTM的文本表示方式，模型复杂度较高，效果提升和付出的代价可能不成正比了。文中给出了模型在OntoNotes数据集上NER F1值随文本长度变化的图。可见文本在一定范围内，栅格状LSTM+CRF模型，与char-based LSTM+CRF、word-based LSTM+CRF及变体模型相比较，有一定的优势。可能的应用：在短文本的向量化表示中优势比较大，比如微博文本限定在140字符以内，延伸的微博文本情感分析、命名实体识别、事件提取等应用均可考虑采用这种栅格状模型。

栅格状LSTM结构图：

《Chinese NER Using Lattice LSTM》阅读笔记

整体框架图：

《Chinese NER Using Lattice LSTM》阅读笔记

依赖技术：中文分词、word2vec、RNN、LSTM、CRF、CNN。

公式及源码解析未完待续。

后续应用：中文关系提取。（清华大学刘知远团队）