VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis
文章目录
Abstract
检测一个文档表达出来的情感对于很多应用都是一个关键任务,比如给用户偏好建模、检测顾客行为、评估产品质量等。传统上,情感分析主要依赖文本内容。手机通常是人们手中唯一的相机,受此驱使,网络上的内容(点评,博客、推特)变得越来越多模式,也就是说文本内容加上照片。问题随之而来,这些视觉成分可不可以对情感分析有帮助呢?我们提出了Visual Aspect Attention Network(VistaNet),利用了文本和视觉成分。我们发现在许多情况下,图片对于文本起到了支持性作用,强调了文本实体中的显著部分,而不是独立于文本来表达情感。因此,我们不用视觉信息作为特征,VistaNet利用attention机制将视觉信息作为可以来指明文档中重要句子的对齐手段。与视觉特征和文本attention相比,在饭店评论上的实验显示出采用视觉方面的attention更有效果。
Introduction
在大网络时代,人们越来越依赖于评价软件,比如吃饭前都会去研究评论。
所以情感分析很重要。(文本分类;文本特征和监督学习;DNN)
文本中不同的部分对于情感分析贡献不一样。
Problem
现在的评价内容不止有文本,还有图像、音频、视频。
这里我们专注于图片。
Contributions
- 首先将图片作为文本分析的attention
- 提出VistaNet,将视觉信息作为句子级别的对齐
- 在Yelp饭店评论上做实验,效果好,并且可以延伸到其他带有图片的文档。
VistaNet网络结构
文档集C,包含若干文档c。每个文档包含L个句子si(i从1到L)和M个图片aj(j从1到M)。每个句子si里包含T个单词(wi,1,wi,2……wi,T)。
整个结构分为三层:
- 底层:用soft attention的word encoding层(将词表示转化为句表示)
- 中间层:sentence encoding层(将句表示转化为文档级别的表示)
- 顶层:分类层,对每个文档给出一个情感标签。
Word Encoder with Soft Attention
对于每个单词wi,t,使用学习到的词嵌入矩阵We得到词嵌入xi,t
为了编码整个词嵌入的序列,用了带有GRU的双向RNN,接受输入xi,t,输出隐藏层状态,方括号中前者是前向RNN生成的,后者是后向RNN生成的。
对于句子表示来说,每个词的作用不一样,所以我们用soft attention。其中U随机初始化,得到了最终的句表达
Sentence Encoder with Visual Aspect Attention
与前一层类似,接受句输入之后先过一个Bi-RNN。
图片会对句子有贡献,所以我们采用visual aspect attention。
首先要获得图片的编码,我们用VGG-16的FC7层,是个4096维的向量。
对于图像表示,句子表示
是对于每个图像而言的文档表示(image-specific document representation)。我们想找到每个对于最终文档表示d的贡献。
一些文档可能会没有足够的图片来支撑语义,所以我们给每个文档加了“MEAN”图片来起到“global” aspect的作用。
Sentiment Classification
d作为特征,用softmax分类。训练时最小化交叉熵损失,l为ground truth。
Experiments
数据集用的是Yelp上的美国五个城市的在线评论。任务是情感分类,评价标准是分类准确率。
Baselines
集合图片表示时,有两种:平均池化a和最大池化m
- BiGRU学习文本,VGG学习图片,然后concatenate。
- HANATT(state of the art)
- Tensor Fusion Network
Results
下图是与baseline比较
下图是自身比较(architecture ablation analysis),表明每一部分都有贡献。
下图表示图片数量增加会有效果变好的趋势。
Conclusion
提出了一个利用视觉信息做情感分析的VistaNet。
三层:聚合词到句的表示;到image-specific的文档表示;到最终的文档表示。
将图片作为文档中那部分更重要的对齐手段
实验验证了效果