VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

文章目录

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

Abstract
Introduction

Problem
Contributions

VistaNet网络结构

Word Encoder with Soft Attention
Sentence Encoder with Visual Aspect Attention
Sentiment Classification

Experiments

Baselines
Results

Conclusion
Reference

Abstract

检测一个文档表达出来的情感对于很多应用都是一个关键任务，比如给用户偏好建模、检测顾客行为、评估产品质量等。传统上，情感分析主要依赖文本内容。手机通常是人们手中唯一的相机，受此驱使，网络上的内容（点评，博客、推特）变得越来越多模式，也就是说文本内容加上照片。问题随之而来，这些视觉成分可不可以对情感分析有帮助呢？我们提出了Visual Aspect Attention Network（VistaNet），利用了文本和视觉成分。我们发现在许多情况下，图片对于文本起到了支持性作用，强调了文本实体中的显著部分，而不是独立于文本来表达情感。因此，我们不用视觉信息作为特征，VistaNet利用attention机制将视觉信息作为可以来指明文档中重要句子的对齐手段。与视觉特征和文本attention相比，在饭店评论上的实验显示出采用视觉方面的attention更有效果。

Introduction

在大网络时代，人们越来越依赖于评价软件，比如吃饭前都会去研究评论。

所以情感分析很重要。（文本分类；文本特征和监督学习；DNN）

文本中不同的部分对于情感分析贡献不一样。

Problem

现在的评价内容不止有文本，还有图像、音频、视频。

这里我们专注于图片。

Contributions

首先将图片作为文本分析的attention
提出VistaNet，将视觉信息作为句子级别的对齐
在Yelp饭店评论上做实验，效果好，并且可以延伸到其他带有图片的文档。

VistaNet网络结构

文档集C，包含若干文档c。每个文档包含L个句子s_i(i从1到L)和M个图片a_j(j从1到M)。每个句子s_i里包含T个单词（w_i,1,w_i,2……w_i,T）。

整个结构分为三层：

底层：用soft attention的word encoding层（将词表示转化为句表示）
中间层：sentence encoding层（将句表示转化为文档级别的表示）
顶层：分类层，对每个文档给出一个情感标签。

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

Word Encoder with Soft Attention

对于每个单词w_i,t，使用学习到的词嵌入矩阵W_e得到词嵌入x_i,t
$x_{i,t} = W_ew_{i,t},\, t\in[1,T]$
为了编码整个词嵌入的序列，用了带有GRU的双向RNN，接受输入x_i,t，输出隐藏层状态 $h_{i,t} = [\stackrel{\rightarrow}{h}_{i,t},\stackrel{\leftarrow}{h}_{i,t}]$ ,方括号中前者是前向RNN生成的，后者是后向RNN生成的。
$h_{i,t} = Bi-RNN(x_{i,t})$
对于句子表示来说，每个词的作用不一样，所以我们用soft attention。其中U随机初始化，得到了最终的句表达 $s_i$
$u_{i,t} = U^Ttanh(W_wh_{i,t}+b_w)\\ \alpha_{i,t} = \frac{exp(u_{i,t})}{\sum_texp(u_{i,t})}\\ s_i = \sum_t\alpha_{i,t}h_{i,y}$

Sentence Encoder with Visual Aspect Attention

与前一层类似，接受句输入之后先过一个Bi-RNN。
$h_i =Bi-RNN(s_i)$
图片会对句子有贡献，所以我们采用visual aspect attention。

首先要获得图片的编码，我们用VGG-16的FC7层， $m_j$ 是个4096维的向量。

对于图像表示 $m_j$ ,句子表示 $h_i$
$p_j = tanh(W_pm_j+b_p)\\ q_i = tanh(W_qh_i+b_q)\\ v_{j,i} = V^T(p_j\odot q_i+q_i)\\ \beta_{j,i} = \frac{exp(v_{j,i})}{\sum_iexp(v_{j,i})}\\ d_j = \sum_i\beta_{j,i}h_i$
$d_j$ 是对于每个图像而言的文档表示（image-specific document representation）。我们想找到每个 $d_j$ 对于最终文档表示d的贡献。
$k_j = K^Ttanh(W_dd_j+b_d)\\ \gamma_j = \frac{exp(k_j)}{\sum_jexp(k_j)}\\ d=\sum_j\gamma_jd_j$
一些文档可能会没有足够的图片来支撑语义，所以我们给每个文档加了“MEAN”图片来起到“global” aspect的作用。

Sentiment Classification

d作为特征，用softmax分类。训练时最小化交叉熵损失，l为ground truth。
$\rho = softmax(W_cd+b_c)\\ loss = -\sum_dlog\rho_{d,l}$

Experiments

数据集用的是Yelp上的美国五个城市的在线评论。任务是情感分类，评价标准是分类准确率。

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

Baselines

集合图片表示时，有两种：平均池化a和最大池化m

BiGRU学习文本，VGG学习图片，然后concatenate。
HANATT（state of the art）
Tensor Fusion Network

Results

下图是与baseline比较

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

下图是自身比较（architecture ablation analysis），表明每一部分都有贡献。

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

下图表示图片数量增加会有效果变好的趋势。

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

Conclusion

提出了一个利用视觉信息做情感分析的VistaNet。

三层：聚合词到句的表示；到image-specific的文档表示；到最终的文档表示。

将图片作为文档中那部分更重要的对齐手段

实验验证了效果

Reference

论文地址