Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

Abstract

本文提出了一种在不利照明条件下检测行人的新方法。我们的方法依赖于一种新型的跨模态学习框架，它基于两个主要阶段。首先，给出一个多模态数据集，采用深度卷积网络学习非线性映射，对RGB和热图之间的关系进行建模。然后，所学习的特征表示被迁移到第二个深度网络，其接收RGB图像作为输入，并输出检测结果。以这种方式，学习到了对不良照明条件具有判别性和鲁棒性的特征。重要的是，在测试时，只考虑第二条流水线，不需要热量数据。我们的广泛评估表明，所提出的方法胜过了具有挑战性的KAIST多光谱行人数据集的state-of-the-art，并且与以前的方法在流行的Caltech数据集上具有竞争力。

1.Introduction

行人检测研究[3]已经在具有挑战性的条件下取得了巨大进步，例如杂乱的背景，大量遮挡和微小目标外观。对于许多其他计算机视觉任务，在过去几年中，由于基于深层网络的方法，实现了显着的性能提升[21，1，17，32]。另外，采用新颖的传感器，例如热和深度摄像机，提供了新的机会，通过解决不利的照明条件和遮挡等问题，推进了行人检测的最新技术[15,11,24]。然而，监控系统中绝大多数相机网络仍然采用传统的RGB传感器和在照明变化、阴影和低外部光线情况下行人检测仍然是一个具有挑战性的开放性问题。

本文介绍了一种基于卷积神经网络（CNN）的新方法来解决这个问题。我们的方法受到最近的工作的启发，表明从跨模态数据学习深层次的表示对于检测和识别任务是非常有益的[12,13]。然而，大多数方法假定大量可用的注释数据集。在行人检测的具体情况下，社区可以依赖于使用监控摄像机，汽车和机器人平台收集的大量视觉数据，但是几乎没有标记的多模态数据集。因此，由于近来无监督的深度学习技术的成功，我们引入了一种学习cross-modal表示的行人检测方法，不需要行人的外边框注释。更具体地说，我们提出利用来自多光谱数据的信息，并使用深度卷积网络学习从RGB到热图像的非线性映射，而无需人为的监督。然后通过将学习的表示集成到第二个深层网络中，通过对RGB数据进行操作并有效地建模多尺度信息来利用cross-modal映射。重要的是，在测试时，不需要热图数据，仅在彩色图像上进行行人检测。

图1描述了所提出的方法的概述。我们的直觉，如图2所示，是通过利用所提出的方法和多光谱数据，更容易区分彩色图像中的hard-negative样本（例如，具有类似于行人外观的电杆或树），从而提高检测精度。在不良照明条件下捕获的几帧，在公开数据集的实验结果表明我们的方法优于以前的方法。本文的主要贡献是：
•我们介绍一种用于学习和迁移行人检测的cross-modal特征表示的新方法。利用提出的框架，来自辅助模态（例如热图像）的数据被用作从RGB图像学习CNN特征的监督形式。我们的策略有两个根本的优势。首先，在测试阶段不使用多光谱数据。这在部署机器人和监控系统时至关重要，因为只需要传统的摄像机，从而显着降低成本。第二，热域中不需要行人注释。这大大减少了人工标签工作，并允许利用大量的RGB-热图像对数据。
•据我们所知，这是利用卷积神经网络专门解决不利照明条件下行人检测问题的第一项工作。以前的工作主要采用hand-crafted的描述符，并通过使用额外的输入特征来整合热模态[15,28]。我们的方法是基于两个新的深层网络架构，专门设计用于无监督的跨模态特征学习和有效迁移学习的表示。
•通过广泛的实验评估，我们证明了我们的框架优于新的KAIST多光谱行人数据集[15]的state-of-the-art，并且与以前的方法在流行的Caltech数据集上具有竞争力[9]。
本文的组织结构如下。第二部分概述了行人检测和cross-modal特征学习的相关工作。第3节描述了提出的针对行人检测背景下的照明变化的学习特征的框架。实验结果表明我们的方法的好处在第4节中给出。我们在第5节中给出了重点总结。

2.Related Work

与本文密切相关的研究课题是监控视频的行人检测和在多模态数据上的深度学习方法。下面我们来介绍一下关于这些课题的最新工作。

Pedestrian Detection ：由于其在许多领域的相关性，如机器人和视频监控，在研究界行人检测问题已经受到相当大的兴趣。多年来，针对速度[34,2,1,17]和精度[39,22,44,45,10,32]，提出了各种各样的特征和算法来改进检测系统。
最近，通过采用强大的深度网络[21，1]已经取得了显着的性能增长，这得益于他们直接从原始像素学习辨别特征的能力。在[26]中，提出了一种基于卷积稀疏编码的无监督方法预训练的CNN。在[19]中讨论了遮挡问题，其中采用了深层置信网络来学习不同身体部位的visibility mask。这项工作在[20]中扩展到，建立多个目标之间的关系模型。最近，在[31] DeepParts中，提出了一个用于处理严重遮挡的鲁棒框架。与以前针对遮挡问题的深度学习模型不同，DeepParts不依赖于单个检测器，而是基于多个部件检测器。田等[32]通过考虑人物和场景的语义属性，学习了行人检测的判别性表示。蔡等[4]引入了Complexity-Aware Cascade Training（CompACT），成功整合了许多异构特征，包括hand crafted和产生自CNN。张等人[43]提出了一种基于区域提议网络（RPN）[25]和boosted forests的方法。
其他工作关注于改善基于CNN的行人检测器的计算时间。例如，[1]提出了DeepCascade方法，即深层神经网络的级联，并且在检测速度方面表现出相当大的进步。 [14]提供了用于行人检测的不同深度网络架构选择的深入分析。据我们所知，这些以前的工作都没有考虑到多模态数据，或者解决在不利的照明条件下行人检测的问题。
以前的工作已经考虑从其他领域迁移信息，用于构建场景特定的行人检测器。 Wang等[35]提出了一种无监督的方法，其中通过利用上下文提示（如运动和场景几何）来收集目标样本。然后，通过重新加权标记的源样本，即通过对与目标数据更相似的样本分配更重要的权重的方式构建行人检测器。这种方法后来在[42]中扩展，以学习深层特征表示。类似地，在[5]中，提出了一种用于减少源分布和目标分布之间的差异的样本选择方案。我们的方法是截然不同的，因为我们没有限制我们的注意力来将一个通用模型适应一个特定的场景，我们解决了将知识迁移到不同模态的问题。
Learning Cross-modal Deep Representations ：在过去几年中，深层网络已成功应用于从多模态数据学习特征表示[16,38,37]。然而，学习和迁移跨模式特征的问题很少被研究。[6，30，29，12，13]的工作尤为例外。其中与我们最相似的是[6，30，13]。在[6,30]中，也利用了其他模态的幻灯片数据的想法。然而，我们基于CNN的方法是截然不同的，因为[30]中的工作考虑了深度波尔兹曼机，而在[6]中，使用高斯过程学习了不同模态之间的映射。在[13]中，解决了从RGB数据进行物体检测的问题，并且深度图像被用作仅在训练时间可用的附加信息。类似[13]，我们的检测网络同时使用从源域学到的cross-modal特征和目标场景的特定表示。然而，在[13]标签数据在原始域中可用。相反，在我们的框架中，我们在无监督设置中学习cross-modal特征，即我们不需要在热域中的任何注释。以这种方式，可以利用巨大的多光谱数据集。

3.Learning and transferring cross-modal deep representations

在本节中，我们描述提出的框架。我们首先概述我们的方法，并详细描述我们设计的CNN架构，从RGB输入重建热图像，并迁移学习的cross-modal表示，为了鲁棒的行人检测的目的。

3.1 Overview

如第1节所述，提出的框架（图1）分别基于重建和检测任务相关联的两个不同卷积神经网络。第一个深度模型，即区域重建网络（RRN），是一个全卷积网络，无监督的从RGB-热图像对采集的行人建议进行训练。 RRN用于学习从RGB通道到热通道的非线性映射。在目标域只有RGB数据可用，第二个深度网络，嵌入从RRN迁移的参数，多尺度检测网络（MSDN）用于鲁棒的行人检测。 MSDN以整个RGB图像和一些行人建议作为输入，并输出检测到的边界框与相关的分数。在测试阶段，使用MSDN进行检测，只需要RGB输入。在下文中，我们将描述所提出的深层框架的细节。

3.2 Region Reconstruction Network

RRN的目的是从相关的RGB图像重建热图像。 RRN架构的设计是由两个主要需求驱动的。首先为了避免
人工注释的努力，热信息应以无监督的方式得到恢复。虽然我们的方法使用热图像作为重建任务的深度监督，但它本质上只需要很弱的监督信息（即成对信息）。然而，在RGB-T数据收集阶段，我们很容易获得成对的信息。在人力方面最昂贵的部分是注释行人外边框。所提出的方法不需要这些额外的人工注释。第二，由于多光谱数据预计对于hard positive和negative样本尤其有用（图2），而不是尝试重建整个热图像，更合适的是特别关注可能包含行人的边界框
。因此，在本文中，我们提出利用预训练的通用行人检测器（例如ACF [8]）从RGB数据中提取一组行人建议（包含true positive和false positive），并设计一个重建相关热信息的深层模型。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

所提出的RRN网络如图3所示。 RRN的输入是三通道的RGB图像和一组相关的行人建议。 RRN由前端卷积子网和后端重建子网络组成。虽然在我们的实现中，前端卷积层利用了VGG-13网络结构[27]，但是RRN也支持其他架构。在前端子网络的最后一个卷积层之后，添加了一个ROI池化层[10]。对于每个ROI，生成大小为512×7×7的特征图。考虑到ROI特征图的小尺寸，为了有效地重构与行人相关的热图像区域，我们应用一个去卷积层来对ROI特征图（输出大小50×50）进行上采样，并将输出通道的数量减少到64，确保训练过程平滑收敛。与许多以前的工作（例如[36]）不同，它只是考虑双线性上采样操作，在去卷积层中我们学习了上采样核（kernel size为4，stride为8和pad为1）。在去卷积层之后，应用整流线性单元层（ReLU）。然后，使用卷积层（kernel size 为3，pad为1）生成对应于每个提案的重建图。最后，考虑平方损失来计算每个重建图，整个网络是用反向传播优化。
在广泛使用的fast或faster RCNN框架中，使用ground truth 行人边界框来确定true positive 和false positive样本的比例，然后构建固定大小的训练mini-batches。为了避免使用仔细注释的groundtruth边界框，我们使用来自一个随机选择的训练图像的阈值通用ACF生成的行人建议构建每个训练小批量，因为每个训练图像相对应的提议的数量动态地改变，因此我们的方法实现训练期间dynamic mini-batch。

3.3Multi-Scale Detection Network

MSDN专门设计用于通过利用RRN学习的cross-modal表示来从RGB图像执行行人检测。受以前的工作启发，展示了在行人检测中考虑多尺度信息的重要性[43]，我们引入了一个检测网络，它融合了从ROI池化层获得的多个特征图。

MSDN架构无缝集成了两个子网（Sub-Net A和Sub-Net B），如图4所示。子网A有13个卷积层，组织在五个块。如图4所示，Cm，n表示第m个块的具有相同尺寸滤波器的n层卷积层。在卷积层之后添加最大池化层，并且将ReLU非线性应用于每个卷积层的输出。将RoI（感兴趣区域）池化层[10]应用于最后两个卷积块，以提取每个行人建议大小为512×7×7的特征图。我们考虑这两个块，因为我们的实验表明这个策略是计算复杂度与精度之间最优的权衡。子网B具有相同的子网A结构，但由于其主要目标是迁移cross-modality 中级表示，所以13个卷积层的参数来自RRN的相关层。实际上，来自RRN的卷积块产生了一个紧凑的特征表征，捕获复杂的RGB与热域之间的关系。因此，它们嵌入在MSDN中，例如允许所需的知识迁移。
然后将从两个子网络的RoI池化层导出的特征图与concatenation层组合，并应用具有1024个通道的另外的卷积层。由于RoI特征图的大小很小，所以我们将卷积层的核大小设置为1。然后，两个完全连接的大小为4096的层。最后，使用两个兄弟层，一个在行人和背景类别上输出softmax概率估计，另一个为行人定位提供相关的边界框偏值。

3.4 Optimization

如上所述，提出的cross-modal框架基于两个不同的深层网络。因此，训练过程也涉及两个主要阶段。
在第一阶段，RRN在多光谱数据上训练。使用在ImageNet数据集上预先训练的VGG-16模型[27]的13个卷积层的参数来初始化RRN的前端卷积层。其余参数随机初始化。随机梯度下降（SGD）用于学习网络参数。在第二阶段，使用目标域中的RGB数据和行人边界框注释来优化MSDN的参数。我们先训练子网A，通过将MSDN的公共部分（即从特征连接层到两个兄弟层）相加。在这种情况下，特征图的大小在特征连接层和在以下卷积层中分别为1024×7×7和512×7×7。预先训练的VGG-16模型也用于初始化子网A.子网B的卷积层用对应的RRN参数进行初始化。然后，使用目标域的RGB数据进行微调。整个MSDN优化是基于SGD的反向传播。

3.5 Pedestrian Detection

在检测阶段，给定一个测试RGB图像，我们采用标准协议。首先，类似于训练阶段，提取区域提案。然后，将输入图像和提案输入到MSDN。 softmax层输出类得分，边界框回归器表示估计的图像坐标。为了减少提案的冗余性，基于每个提案的预测分数，设置IoU阈值δ，采用非极大值抑制NMS。