大致翻译,有时间再整理一下

摘要:

理解视觉场景不仅仅是孤立地识别单个对象。对象之间的关系也构成了丰富的场景语义信息。论文中使用场景图(一种基于图像的可视化图形结构)显式地对对象及其关系建模。提出一种新颖的端到端模型,从输入图像生成这种结构化的场景图。该模型利用标准的RNNs解决了场景图推理问题,学会了通过消息传递迭代地改进预测。我们的联合推理模型可以利用上下文线索对物体及其关系做出更好的预测。

介绍:

深入理解视觉场景的关键步骤是构建一个捕获对象及其语义关系的结构化表示[26,34,41],这种表示不仅为基本的识别任务提供了上下文线索[27,29,38,39],而且在更高水平的视觉任务提供了更多的价值,近几年在形成对象间关系的物体识别任务[5,20,26,33]上取得了很大的成就。视觉场景图[18]能够将对象之间的关系更加直观的表示出来,在语义图像检索[18]、三维场景合成[4]、视觉问答[37]等视觉任务中,场景图发挥着很重要的作用。要真正利用这种丰富的结构,关键是要设计一个模型,自动从图像中生成生成场景图。
图:1:通过迭代消息传递生成场景图Scene Graph Generation by Iterative Message Passing(2017)
生成场景图中一个边框框出的是一个对象,重叠的两个框表示对象和对象之间存在依赖关系。生成场景图最大的挑战在于对象和对象之间的关系推理,人们在对图像中的语义关系进行定位和识别方面做了大量的工作[6,8,26,34,39]。大多数方法都侧重于对物体之间的关系只进行局部预测[26,34],这在本质上将场景图生成问题简化为对物体之间的关系进行独立预测。本文中模型将图像作为输入并输出一个场景图,该场景图由对象类别、它们的边界框和对象对之间的语义关系组成。该模型在场景图的一对子图之间传递包含上下文信息的消息,并使用RNNs迭代地改进其预测。

相关工作

场景理解和关系表示

视觉场景理解通常利用对象共现的统计模式[11,22,30,35]以及空间布局[2,9]。 基于周围像素和区域的一系列上下文模型也已经被开发用于感知任务[3,13,25,27]。 最近的工作[6,31]利用更复杂的结构进行关系预测。 然而,这些工作专注于图像级预测,没有详细的视觉基础。 [17,28,42]研究了物理关系,如支持和稳定性。 Lu等人 [26]通过将视觉输入与语言先验相结合,直接处理语义关系检测,以应对现实世界关系的长尾分布。 但是,他们的方法独立地预测每个关系。 我们证明了我们的模型优于他们的联合推理。

视觉场景表示

最流行的一种表现视觉场景的方法是通过文本描述[14,34,44]。尽管基于文本的表示已被证明有助于场景分类和重新计算,但其能力往往受到模糊性和缺乏表达性的限制。相比之下,场景图[18]具有明确的视觉概念基础,避免了文本表示中的参考不确定性。场景图在图像重估[18]、三维场景合成[4]和理解[10]、可视化问题回答[37]、自动字幕评估[1]等下游任务中得到了广泛的应用。然而,之前的场景图研究工作通过使用ground-truth注释[18,37]或从其他模式中提取图来回避图的生成问题[1,4,10]。我们的工作解决了直接从图像生成场景图的问题。

图推理:

条件随机场(CRF)已广泛用于图推理。 约翰逊等人 使用CRF推断图像检索的场景图基础分布[18]。 Yatskar等人 [40]使用深度CRF模型提出了情境驱动对象和动作预测。 我们的工作与CRFasRNN [43]和Graph-LSTM [23]密切相关,因为我们还使用基于RNN的模型来制定图推理问题。 一个关键的区别在于,他们将边缘视为成对约束,同时关注节点推理,而我们使用新颖的原始 - 对偶图推理方案实现边缘预测。我们的模型被结构RNN所鼓励。 一个关键的区别是我们的模型通过消息传递迭代地改进其预测,而结构RNN模型仅沿时间维度进行一次性预测,因此不能改进其过去的预测。

场景图的生成

问题公式化

首先使用RPN网络从图片中得到建议框,在这些建议框找出一个中心目标,相对于中心目标相对偏移量的另外四个建议框用来调整细化中心目标的建议框。定义以下规则来形式化最优的场景生成图。通过迭代消息传递生成场景图Scene Graph Generation by Iterative Message Passing(2017)

利用RNN来进行推理

图2:通过迭代消息传递生成场景图Scene Graph Generation by Iterative Message Passing(2017)
利用场景图独特的二部结构,可以进一步提高推理效率。在场景图拓扑中,边GRU连接着是结点GRU,反之亦然。沿着这个结构传递消息形成两个互不相交的子图,它们彼此是对偶图。具体来说,我们有一个以节点为中心的原始图,其中每个节点GRU从其入站和出站边缘GRU获取消息。在以边为中心的对偶图中,每个边GRU从它的子对象节点GRU和对象节点GRU中获取消息(图2(b))。因此,我们可以通过在这两个子图之间迭代传递消息来提高推理效率,而不是通过一个全连接的图.

论文链接:https://arxiv.org/abs/1701.02426

阅读笔记:仅从运动模式中预测人类意图(2017)https://mp.csdn.net/mdeditor/90345871

阅读笔记:学习带有标签的结构化推理网(2016)
https://blog.csdn.net/weixin_45092744/article/details/90348683

相关文章: