一、 图卷积做视觉、语言特征融合

多模态特征融合方法学习
这篇文章的重点是做图像内物体和句子单词的细粒度对齐,图像中物体和句子单词被做成同维度的特征表示,假设每张图像被表示成F=dmF=d*m,取图像中mm个物体,每个被表示成dd维;每个句子被表示成G=dnG=d*n,保留n个单词,每个单词d维。
图卷积的使用关键在于邻接矩阵A怎么构造。这里采用的方法是利用以下变换:
A=[0GTFFTG0] A = \begin{bmatrix} 0 & G^TF \\ F^TG & 0 \end{bmatrix}
即将图像中每个物体、句中每个单词均视为图中的一个节点,通过矩阵相乘的方式使得图像表示和文本表示有交互,得到一个维度n+mn+m的对称邻接矩阵。
多模态特征融合方法学习
有了邻接矩阵A之后再继续求得节点度对角阵D。之后,图卷积中需要的两部分输入分别来自原始的图文特征拼接H0=(m+n)dH_0 = (m+n)*d,以及矩阵adj=D0.5AD0.5adj = D^{-0.5}AD^{-0.5}

MFB做视觉、文本特征融合

多模态特征融合方法学习
m维视觉特征和n维文本特征可以很容易地做以上双线性变换得到特征值ziz_iWiRmnW_i\in \reals ^{m*n},要得到zRoz\in\reals^o的最终特征则需要o个权值矩阵WiW_i,即W=[W1,W2,...,Wo]W = [W_1,W_2,...,W_o],进一步矩阵分解,矩阵WiW_i可以由两个低秩矩阵UiRmkU_i\in \reals ^{m*k}ViRnkV_i\in \reals^{n*k}来表示。微问题转化成要得到输出特征zRoz\in\reals^o,需要学习到两个三阶的张量矩阵URmkoU\in\reals^{m*k*o}VRnkoV\in\reals^{n*k*o},通过简单的reshape操作,不难将矩阵UVU和V形式化成二维矩阵即UˉRmko\bar{U}\in\reals^{m*ko},VˉRnko\bar{V}\in\reals^{n*ko},那么视觉特征xRmx\in\reals^m和文本特征yRny\in\reals^{n}经过以下式子的双线性变换,并作sumpooling得到最终的zRoz\in\reals^o
z=SumPooling(UˉTxVˉTy,k) z = SumPooling(\bar{U}^Tx\circ\bar{V}^Ty,k)
其中\circ是Hadmard product,即逐元素乘积。SumPooling使用大小为k的池化核,步长为k,做求和池化。
图示如下:
多模态特征融合方法学习

相关文章:

  • 2021-11-17
  • 2021-12-06
  • 2022-01-03
  • 2021-04-16
  • 2021-04-13
  • 2022-12-23
  • 2021-12-25
  • 2022-02-04
猜你喜欢
  • 2021-05-24
  • 2021-05-12
  • 2021-07-20
  • 2021-06-16
  • 2021-07-13
  • 2021-12-21
  • 2021-07-02
相关资源
相似解决方案