论文阅读：Rethinking Visual Relationships for High-level Image Understanding

VrR-VG

文章
本文想解决的问题是，对于视觉关系检测这一任务来说，在目前常用的权威数据集Visual Genome的一个子集VG150（VG中出现频率最高的150类物体和50类关系）上，直接可以依赖统计的方法解决得比较好，这不利于关系检测的进一步研究，因此文章设计了一个网络可以滤除掉VG数据集中那些视觉无关（visually-irrelevant）的关系样本。在新的数据集上，基于频率的方法不再有效。

论文阅读：Rethinking Visual Relationships for High-level Image Understanding

如上图(a)就是VG150中的一个场景图描述，(b)则是本文的的方法对VG清洗之后留下的场景图描述（Visually-relevant Relationships in Visual Genome，VrR-VG）。其实我们也可以大概看出来，(b)的话更难使用频率进行关系类别的判断。

为了滤除掉视觉不相关的关系样本，本文设计了一个visually-relevant relationship discriminator，思想就是“如果一个关系样本，在利用除视觉信息以外的特征，如物体类别和边界框位置就能较好地预测得话，那么这个样本就是视觉不相关的。”下面是本文的discriminator的结构

输入是主语和宾语的类别词向量和边界框的信息，p_o和p_s是主语和宾语边界框的(x,y,w,h)，p_j则是两个框的一些相对位置信息如下

结构中的W都是可以学习的全连接层权重。本文一个发现是，VG150中有超过54%的relation
label可以用上面这个简单的网络以不低于50%的准确度进行预测。
有了discriminator就可以开始构建数据集了，文章第一步是提取了VG中最常出现的1600种物体和500种关系。对于一些关系，比如“wears”和“is wearing a”这一类的，这些关系会将网络弄“糊涂”，因为对于相同的物体组合，这些关系都是正确的。因此，文章首先将这些词都用Glove词向量表示，然后通过层次的手段进行聚类，这样一来又将500种关系减少到了180种。然后便可以使用discriminator滤除掉视觉不相关的关系样本，最后得到了113种关系类别。在图片数量的对比上，VG150包含了87670张图片和588586个三元组，VrR-VG则包含了58983张图片和23375个关系对。数量上减少了很多，但却更加平衡了，如下图