abstract
文本摘要和情感分类都是要捕获文本的重要信息,但是在不同的水平上的。文本摘要是用一些句子表示原始文档,情感分类是给文本贴标签。
提出层次级的端到端模型进行摘要抽取和情感分类的联合学习,标签是作为文本摘要抽取的输出,情感分类依赖于摘要抽取, 情感分类放在摘要抽取上面
code:http://coai.cs.tsinghua.edu.cn/publications/
1 Introduction
文本分类和情感分类是自然语言处理中的两大任务,文本摘要主要抽取原始文本的主要信息,和抽取式摘要(从文本中抽取一部分文本出来)相比,抽象型摘要建立在内部语义信息的表示,然后使用自然语言生成技术获得摘要。我们主要关注抽象型文本摘要,情感分类是给文本贴标签,决定文本的正负,也叫观点挖掘,文本摘要和情感分类都是挖掘文本的主要意思,文本摘要使用词语和句子表示文本,而情感分类使用标签表示文本。
现有模型中,
对于抽象型的文本摘要,最流行的模型是sequence-to-sequence模型,在长文本和短文本之间学习一个映射。模型包含了一个编码器和解码器,编码器把原始文本使用潜在空间表示,解码器获得摘要,最近的一些抽象型摘要模型是sequence-to-sequence模型的变体,对于情感分类,最近使用最多的是神经网络结构,比如LSTM,CNN。
一些工作提出的模型可以产生摘要和情感标签,但是,摘要抽取和情感分类是分开的,并且需要人工抽取特征,也有一些工作是情感摘要,从特定的类中的文本抽取句子,这主要关注摘要抽取,而不是情感分类。
本工作主要是提高文本摘要和情感分类,提出层次级的端到端网络,包含了摘要层和分类层,抽取层将原始文本压缩成短句子,情感分类层再总结层一个标签,层次级结构建立了文本摘要和情感分类之间的关系,两个任务可以互相提高,压缩文本后,对于分类器可以更容易进行预测标签,还有,文本抽取可以获得重要和有信息的词,并且去除多余和复杂信息,这些信息对于预测有害,情感分类可以提供更重要的信息给文本摘要抽取,并且指导摘要抽取部分捕获原始文本的重要信息,这可以提高短文本和长文本之间的联系。
使用Amazon的在线语料。
本文的贡献:
1 把文本分类作为一种特殊的摘要,在同一个模型中进行情感分类和文本摘要。
2 提出multi-view的注意力机制获得文本的不同的表示,
3 实验证明我们的结果比baselines好。
2 Proposed Model
2.1 Problem Formulation
2.2 Model Overview
2.3 Text Encoder
2.4 Summary Decoder with Multi-View Attention
2.5 Summary-Aware Sentiment Classifier
2.6 Overall Loss Function and Training
3 Experiments
3.1 Datasets
3.2 Evaluation Metric
3.3 Experimental Details
优化器:Adam
learning rate=0.003
two momentum parameters:β1=0.9, β2=0.999
batch size=64
3.4 Baselines
3.5 Results
3.6 Ablation Study
3.7 Visualization of Multi-View Attention
4 Related Work