Recursive Social Behavior Graph for Trajectory Prediction（CVPR2020阅读笔记）

Recursive Social Behavior Graph for Trajectory Prediction

用于轨迹预测的递归社会行为图
摘要
1引言
2相关工作
3方法
4实验
5结论

用于轨迹预测的递归社会行为图
收录于CVPR2020
作者：Jianhua Sun , Qinhong Jiang , Cewu Lu
论文地址：https://arxiv.org/abs/2004.10402
发表时间：22 Apr 2020

摘要
社会互动是人类轨迹预测中产生合理路径的重要主题。
在本文中，我们提出了基于群体的社会互动模型的新见解，以探索行人之间的关系。
我们递归地提取由基于组的注释所监督的社交表示，并将其公式化为社交行为图，称为递归社交行为图。我们的递归机制在很大程度上探索了表示能力。然后使用图卷积神经网络在这种图中传播社交交互信息。在递归社会行为图的指导下，我们在ETH和UCY数据集上的先进技术方法平均在ADE中为11.1％，在FDE中为10.8％，成功地预测了复杂的社会行为。

1引言
预测动态场景中人类的未来轨迹是计算机视觉中的一项重要任务[28、16、31、32、33、42、44、20]。这也是自动驾驶和人机交互中的关键点之一，它们为后续的决策过程提供了丰富的信息。轨迹预测的主要挑战在于如何将人与人之间的相互作用纳入考虑之中以产生合理的路径[2、13、3、6、27、26]。
早期的工作为解决问题付出了很多努力。 Social Force [14，28]提取了不同类型的force，例如用于处理它的加速和减速力。近年来，深度学习取得了长足的进步，这激发了研究开始研究基于深度神经网络的方法。一些研究[2，13，34，18，17]修改了具有特定集合或关注机制的递归神经网络（RNN）体系结构，以集成RNN之间的信息。
虽然取得了很大的进步，但仍然存在着挑战。基于力（force）的模型[28]利用距离来计算力，当相互作用比较复杂时就会失效。而对于池化（pooling）方法[2,13]，则以两人在同一时间步长的距离作为计算关系强度的标准。注意（Attention）方法在[18,34]中也遇到了同样的问题，即在他们的方法中使用欧氏距离来引导注意机制。
总的来说，这些学习方法试图利用距离来制定不同agent之间的影响强度，但是忽略了基于距离的方案无法处理人类社会中的众多社会行为。图1给出了两个典型的例子。前三张图片显示，两个人从相反的方向走到同一个目的地。最下面的三张图片显示，三个行人沿着街道走，另外三个人站着不动，互相交谈。虽然在这两个场景中，行人在红色圆圈中的距离很遥远，但他们表现出强烈的关系。

Recursive Social Behavior Graph for Trajectory Prediction（CVPR2020阅读笔记）
图1所示这些例子都是远距离的、不相关的人与人之间的互动。图像按时间顺序从左到右排列。前三张图片显示，两个人(红色圆圈)从相反的方向走到同一个目的地。底部的三张图片显示，左红圈的人跟在右红圈的人后面，几乎不受蓝圈的人的影响。

在这篇论文中，我们的目标是探索行人之间的关系超越使用的距离。为此，我们提出了基于群体的社会互动模型的新观点。一个群体可以被定义为一组有着相似动作、行为、目的或目标的人。
如图2所示，每一种颜色代表一组，并且用箭头标注关系，以显示相互作用的方向性。此外，场景中的组可以表示为图，这是特征传播的一种常见结构。此外，我们认为社会关系的表现是过于复杂，不能很好地用手工制作的方法捕捉。

Recursive Social Behavior Graph for Trajectory Prediction（CVPR2020阅读笔记）
为了模拟这种新颖的见解，我们提出了一种递归提取社会关系的神经网络，并将它们表示为一个社会行为图，称为递归社会行为图(RSBG)。每个行人都被视为一个节点，其特征考虑了历史轨迹。这些节点通过相关的社会表现来连接，这些社会表现被认为是图的边缘。我们使用群体注释来监督社会表现的生成，这是第一次使用社会相关注释来帮助神经网络学习我们所知的社会关系。此外，还引入了递归机制。我们通过社会表征递归更新交互作用范围内的个体轨迹特征，进而利用更好的个体特征来更新社会表征。为了实现基于RSBG的特征传播，本系统采用了基于图卷积神经网络(GCNs)的框架。

在ETH[31]中的2个数据集和UCY[21]中的3个数据集的多人体轨迹基准上的实验表明，我们的模型在精度改进方面具有优势。我们的贡献可以总结如下:

我们提出了递归社会行为图，这是一种新的社会行为建模的图表示方法，并使用递归神经网络来生成它。该网络旨在提取潜在的行人关系，并由群体标注进行监督，这是首次在预测任务中引入专家标注的社会相关标注。
我们首先引入GCNs，将人类社会行为融入动态场景中进行预测任务，从而获得更强的表达能力和更高的性能。
我们在几个视频数据集中进行了详尽的实验。通过应用我们提出的方法，与最先进的方法相比，我们能够实现11.1%的ADE和10.8%的FDE的改进。