VrR-VG

文章
  本文想解决的问题是,对于视觉关系检测这一任务来说,在目前常用的权威数据集Visual Genome的一个子集VG150(VG中出现频率最高的150类物体和50类关系)上,直接可以依赖统计的方法解决得比较好,这不利于关系检测的进一步研究,因此文章设计了一个网络可以滤除掉VG数据集中那些视觉无关(visually-irrelevant)的关系样本。在新的数据集上,基于频率的方法不再有效。

论文阅读:Rethinking Visual Relationships for High-level Image Understanding

如上图(a)就是VG150中的一个场景图描述,(b)则是本文的的方法对VG清洗之后留下的场景图描述(Visually-relevant Relationships in Visual Genome,VrR-VG)。其实我们也可以大概看出来,(b)的话更难使用频率进行关系类别的判断。

  为了滤除掉视觉不相关的关系样本,本文设计了一个visually-relevant relationship discriminator,思想就是“如果一个关系样本,在利用除视觉信息以外的特征,如物体类别和边界框位置就能较好地预测得话,那么这个样本就是视觉不相关的。”下面是本文的discriminator的结构

论文阅读:Rethinking Visual Relationships for High-level Image Understanding

输入是主语和宾语的类别词向量和边界框的信息,p_o和p_s是主语和宾语边界框的(x,y,w,h),p_j则是两个框的一些相对位置信息如下

论文阅读:Rethinking Visual Relationships for High-level Image Understanding

结构中的W都是可以学习的全连接层权重。本文一个发现是,VG150中有超过54%的relation
label可以用上面这个简单的网络以不低于50%的准确度进行预测。
  有了discriminator就可以开始构建数据集了,文章第一步是提取了VG中最常出现的1600种物体和500种关系。对于一些关系,比如“wears”和“is wearing a”这一类的,这些关系会将网络弄“糊涂”,因为对于相同的物体组合,这些关系都是正确的。因此,文章首先将这些词都用Glove词向量表示,然后通过层次的手段进行聚类,这样一来又将500种关系减少到了180种。然后便可以使用discriminator滤除掉视觉不相关的关系样本,最后得到了113种关系类别。在图片数量的对比上,VG150包含了87670张图片和588586个三元组,VrR-VG则包含了58983张图片和23375个关系对。数量上减少了很多,但却更加平衡了,如下图

论文阅读:Rethinking Visual Relationships for High-level Image Understanding

相关文章: