《A Multi-task Approach for Named Entity Recognition in Social Media Data》论文笔记

《A Multi-task Approach for Named Entity Recognition in Social Media Data》

论文来源：ACL
论文时间：2017年9月
论文方向：多任务学习，命名实体识别
论文链接：https://www.aclweb.org/anthology/papers/W/W17/W17-4419/

1. 摘要：

社交信息的缺点：固有的噪声信息；不当的语法结构；拼写不连续以及大量的缩写词
多任务框架：使用命名实体分割的辅助任务和细粒度的命名实体分类的主要任务进行联合训练
优点：多任务学习能够从字词序列、语法信息和地名词典信息中学习到更高阶的特征。
神经网络在此作为一个特征提取器，将提取到的特征传到CRF分类器中。

2. 引言：

联合训练多任务学习神经网络模型
CNN提取字粒度的信息： :提取字的形态信息和其他正交特征
BILSTM提取词粒度的信息：上下文信息以及句法特征
地名词典应用：捕捉到比较常见的实体采用地名表的表示。
CRF：神经网络提取的特征输入CRF进行分类。
CNN个LSTM是并行的，而不是将CNN的输出作为LSTM的输入

主要贡献：使用多任务学习，并且结合了POS（句法分析）和地名词典表示满足网络的需求。

3. 方法：

Git： https://github.com/gaguilar/NER-WNUT17

3.1特征表示

选择与任务最相关的特征，本文主要是指字、词、词典三个方面。
Character representation：正字法编码器封装大小写、标点符号、字形以及其他正字法特征。
字信息特征创新: 对于非ascii码用X表示。数字-n，字母-c，标点-p
每个单词最大长度：20；
向量维度：20
《A Multi-task Approach for Named Entity Recognition in Social Media Data》论文笔记
Word representation：
连个词表示：一个是预训练词向量（400维）；另一个是POS的tag向量（100维）
滑动窗口捕捉上下文信息：3个token，上文+中心词+下文词

Lexical representation：利用地名词典提高对常用实体的识别的准确率
6维的二进制向量表示。每个维度代表一个实体类别，该单词出现在该类别的词典中就标记为1，否则标记为0；

3.2模型描述

Character level CNN：
（1）字符映射为d*l维度的空间向量，d：维度；l:每个词字符的最长长度
（2）向量输入两层堆栈CNN。采用avera pooling 而不是max pooling
（3）最后接入一个全连接层，采用ReLU**函数，生成每个单词基于字符的表示
Word level BLSTM：
（1）WORD2VEC embedding， POS tag embedding 拼接在一起
（2）拼接的embedding 输入双向LSTM网络提取特征，前向和后向都是100个神经元。
Lexicon network：
输入单词的词典表示向量输入全连接网络。32个神经元个ReLU**函数。
Multi-task network：
创建统一的模型进行NE分割和NE分类的预测。
字粒度向量、词粒度向量和词典向量拼接在一起，输入NE分割和分类任务中。
辅助任务：单个神经元+sigmoid函数
主要任务：16个神经元+softmax函数
最后将两个任务的loss相加，在训练过程中反向传播训练。

3.3 Sequential Inference

神经网络预测的概率没有考虑倒上下文的序列信息，所以添加一个CRF进行序列的label预测。CRF输出的是对于整个输入序列最可能的label序列而不是逐个单词进行预测label。
本文特点：将多任务学习神经网络输出的权重作为CRF分类器的一个特征，在共同的dense层输出的权重能够捕捉到NE分割和NE分类的特征信息。

4 Experimental Settings：

数据预处理：
代替所有的URL
验证集一分为二作为validation和evaluation

超参数设置：
CNN :
kernel size：3
filters： 64

LSTM:
在LSTM前后都添加dropout， keep_prob= 0.5，减少过拟合
batch size:500
epoch:150
optimizer: Adamax

CRF:
L-BFGS 训练方法，
L1: 1.0
L2: 1.0e-3

5 Results and Discussion

《A Multi-task Approach for Named Entity Recognition in Social Media Data》论文笔记

product 较低原因：收约束太少，可以含有任何类型的字母和数字
creative：title中的所有词可以全部加粗

6 Error Analysis

（1）NE boundaries：
如果实体前边跟着一个首字母大写的文章时，会把文章看做实体的一部分。
原因： CNN捕捉到了大写的特征。
（2）全大写实体经常被识别错。因为数据中有的缩写是全大写但不是实体，有的全部大写是实体。