多模态特征融合方法学习

一、图卷积做视觉、语言特征融合

多模态特征融合方法学习
这篇文章的重点是做图像内物体和句子单词的细粒度对齐，图像中物体和句子单词被做成同维度的特征表示，假设每张图像被表示成 $F=d*m$ ，取图像中 $m$ 个物体，每个被表示成 $d$ 维；每个句子被表示成 $G=d*n$ ，保留n个单词，每个单词d维。
图卷积的使用关键在于邻接矩阵A怎么构造。这里采用的方法是利用以下变换：
$A = \begin{bmatrix} 0 & G^TF \\ F^TG & 0 \end{bmatrix}$
即将图像中每个物体、句中每个单词均视为图中的一个节点，通过矩阵相乘的方式使得图像表示和文本表示有交互，得到一个维度 $n+m$ 的对称邻接矩阵。
多模态特征融合方法学习
有了邻接矩阵A之后再继续求得节点度对角阵D。之后，图卷积中需要的两部分输入分别来自原始的图文特征拼接 $H_0 = (m+n)*d$ ，以及矩阵 $adj = D^{-0.5}AD^{-0.5}$ 。

MFB做视觉、文本特征融合

多模态特征融合方法学习
m维视觉特征和n维文本特征可以很容易地做以上双线性变换得到特征值 $z_i$ ， $W_i\in \reals ^{m*n}$ ，要得到 $z\in\reals^o$ 的最终特征则需要o个权值矩阵 $W_i$ ，即 $W = [W_1,W_2,...,W_o]$ ，进一步矩阵分解，矩阵 $W_i$ 可以由两个低秩矩阵 $U_i\in \reals ^{m*k}$ 和 $V_i\in \reals^{n*k}$ 来表示。微问题转化成要得到输出特征 $z\in\reals^o$ ，需要学习到两个三阶的张量矩阵 $U\in\reals^{m*k*o}$ 和 $V\in\reals^{n*k*o}$ ，通过简单的reshape操作，不难将矩阵 $U和V$ 形式化成二维矩阵即 $\bar{U}\in\reals^{m*ko}$ , $\bar{V}\in\reals^{n*ko}$ ,那么视觉特征 $x\in\reals^m$ 和文本特征 $y\in\reals^{n}$ 经过以下式子的双线性变换，并作sumpooling得到最终的 $z\in\reals^o$ ：
$z = SumPooling(\bar{U}^Tx\circ\bar{V}^Ty,k)$
其中 $\circ$ 是Hadmard product，即逐元素乘积。SumPooling使用大小为k的池化核，步长为k，做求和池化。
图示如下：
多模态特征融合方法学习

一、 图卷积做视觉、语言特征融合

MFB做视觉、文本特征融合

一、图卷积做视觉、语言特征融合