Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

论文标题：Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

作者：Liuyuan Deng, Ming Yang, Hao Li, Tianyi Li, Bing Hu, Chunxiang Wang

发表时间：2018.1.3

摘要——本文用环视摄像头（4个鱼眼相机）做360°道路语义分割。首先，为了解决鱼眼图大的扭曲问题，首先作者提出了RDC（Restricted Deformable Convolution）的概念，RDC能够通过学习输入特征图上用的卷积滤波器的形状来有效构建几何变换模型；其次，为了获取大规模的环视图像训练集，本文提出了个新颖的方法叫做zoom augmentation（粗暴的翻译它为“缩放增强”，简单理解就是数据增强），它能将传统的图像（未扭曲变形）变为鱼眼图；最后，搭建了基于RDC的语义分割模型，该模型是为了真实场景下环视图像训练的，通过结合真实的鱼眼图和变形后的非鱼眼图的多任务学习框架。试验证明用RDC来处理有大的扭曲变形图像的有效性，本文提出的方法（结合矫正后的鱼眼图）在处理环视相机采集的图像上显示了较好的性能；

索引——Deformable convolution, semantic segmentation, road scene understanding, surround view cameras, multi-task learning.

I. INTRODUCTION

自动驾驶车需要感知和理解周围环境（道路使用者，可行驶区域，其他道路分割实例）来为之后的决策（如轨迹规划）提供信息。语义分割在视觉场景理解中扮演重要角色，它能解析图像中的特定类别，如行人，车，道路。近些年，由于基于CNN的语义分割在道路场景理解中取得了巨大进步，当然他们用的相机是窄角或广角的传统相机【参考1】。传统相机采用针孔相机模型：真实世界中的所有直线被投射成图像中的直线；然而传统相机的局限性在于它无法捕捉超广角的景观，为了能让车感知360度周边环境，本文介绍用环视相机基于CNN实现道路场景语义分割。

环视系统广泛用于车辆来提供驾驶员360度环视。常规环视由安装于四周的4个鱼眼相机构成，每个鱼眼相机理论视野FOV大小为180°，鱼眼相机拍摄图像带有很强的扭曲变形，给图像处理带来很大难度，因此鱼眼图通常会先做矫正处理【参考2，3】。然而图像矫正会影响图像质量（尤其是图像边界处）【参考4】从而导致信息丢失。另一方面，在原始图像上的分割结果能作为其他任务的输入源，例如Fig.10.所示。本文研究基于CNN在原始环视图上的实例分割，如Fig.1.所示。

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

两个挑战因素需要考虑。第一个挑战是有效的深度学习模型来处理鱼眼图。鱼眼图在从半圆模型到平面投射时无可避免会带来严重的变形【参考5】。扭曲的层度与目标物到相机距离有关，同样与半径角度有关（个人解读它与镜头曲率半径有关），且空间域内的扭曲变形不是均匀的【参考4】，需要我们的CNN模型拥有构建大型且未知变换的能力。除了CNNs拥有较强的表述能力外，人工构建的结构如金字塔池化模型同样也有很好的表述能力。第二个挑战是用于深度神经网络的训练集。目前为止，最前沿的基于CNN的实例分割方法需要大规模的像素级的标注图像来做模型参数优化。尽管一些道路场景数据集已经公开用于实例分割算法【参考11，12】，但是能用于环视相机的实例分割数据集特少。我们的前期工作【参考13】，已经用Cityscapes数据集（该数据集主要用于前视非鱼眼相机）来构建鱼眼数据集，然而对于环视来说仍还不够（个人解读因为前视相机采集的图像视野和环视中侧向和后向的视野图像内容差异大，而且欧洲获取的数据集在中国路况下可能不太适用）。

本文是对前期成果的相当大的延伸【参考13】。主要工作是进一步解决了用环视相机对道路场景语义分割，并提出了更有效的模型用于处理大扭曲变形的图像，通过使用zoom augmentation方法来增强用于语义分割的环视数据集（该方法最初发表在参考13中，通过使用随机更改相机焦距来增强）。本文，我们调整了zoom augmentation来将现存的传统相机捕获图像转为鱼眼图，用CUDA实现对缩放增强层的在线训练。此外，我们成功实现利用环视的道路场景语义分割。

首先，我们提出的方法利用了deformable convolution来处理鱼眼图【参考10】。为了解决空间相关问题【参考14】，提出RDC进一步约束deformable convolution来做像素级的预测任务。

第二，使用各种图像使模型适应当地环境（主要介绍了作者的数据集来源，为了模型适应力强和泛化能力好的话，数据集应该越多样越好），这些图像通过对Cityscapes和SYNTHIA-Seqs以及一些当地采集的真实环视图像实施缩放增强而得到。

最后，搭建了一个多任务学习架构来训练端到端的语义分割模型，为真实环视图像（结合少量真实非鱼眼图像和大量变换为鱼眼后的图像）做语义分割。

AdaBN被采用来填补真实世界图像和转换后图像之间的分布差距。此外，提出了混合损失权重（HLW），通过引入不同损失权重的辅助损失来提高泛化能力。文章结构：Section II相关工作回顾；Section III 介绍了RDC；Section IV介绍了把现有数据集转为鱼眼数据集的方法。Section V 介绍了训练策略；Section VI证明性试验。

II Related work

与人工设计模块不同，可变形的卷积（deformable convolution）【参考10】学习了在输入特征图上的卷积滤波器的形状。感受野和空间采样位置根据物体的大小和形状进行调整。研究表明，在CNNs中学习几何变换是可行和有效的。然而，正如【参考14】中所指出的，可变形的卷积并不能解决在密集预测任务中至关重要的空间对应问题。DTN【参考14】保留了输入和输出之间空间转换层的空间对应，并使用相应的解码器层来恢复对应性。然而，DTN学习的是一个全局参数转换，它被限制为每个位置的非均匀几何变换。（上面这段文字大致意思是可变性卷积较好但存在空间对应性问题，而DTN能解决这个问题，但是只接受几何变换是一致情况，因为鱼眼矫正时各个点的映射关系不是一致的）。

现有的用于道路场景理解的数据集有：CamVid；Cityscapes（大规模用于城市场景语义分割，有5000张带标注的图像，采集至欧洲前视摄像头采集图像）; Mapillary Vistas。为应对数据集收集的困难问题，一个较为流行的方法是利用合成数据，例如： SYNTHIA ； Virtual KITTI ； GTA-V。合成数据常用于对真实训练集做增强。但是这些所有数据集都非鱼眼环视图像。折中考虑模型网络的精度和实时效率问题可参考文章【19，30，31】，为了车载嵌入式应用。本文将ERFNet作为baseline模型，用于高效语义分割。

III Restricted Deformable Convolution

常规的卷积采用一个固定的滤波器filter对特征图中的grid位置进行采样，如图Fig.2a和Fig.2b所示。常规的grid形状多为矩形，如图Fig.2b所示，一个3x3的filter带有膨胀孔隙为2定义如下：

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

变形卷积（deformable convolution）在grid采样点位置添加了2D的偏移（offsets）,见图Fig.2c.每个采样点的实际位置是可学习得到的。（读者可以自己找这篇文章，网上也很多博客，大概这个卷积的优势在于滤波器采样时可以挑你目标物位置处的点做采样）

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

在深度CNN中，upper层编码有高级语义信息和弱的空间信息，包括目标类别级信息；而来自middle层的特征表述了目标部分区域和空间信息；lower层的卷积特征编码有低级的空间信息例如边，角点，圆等。用middle层和lower层学习空间结构信息。如果把demormable 卷积用于lower或middle层，空间结构可能会波动。输入图像和输出的label maps间的空间对应性很难保留，对于空间对应性(对于像素级的语义分割优于重要)问题请参考【14】。因此，deformable卷积操作一般仅仅对网络最后几个卷积层做处理，例如参考【10】。（上面这段文字总结就是deformable convolution会带来空间对应性问题）。

本文采用了个最直接的方法来减轻空间对应性问题。如Fig.2d所示，我们冻结了滤波器filter的中心位置，让输出位置可学习，考虑到modeling transformations很大层度上依赖于输出采样的位置。这种对deformable convolution做的变化称为Restricted Deformable Convolution (RDC)，如图Fig.3.所示。RDC首先用常规滤波器的形状做初始化，然后二维偏移量是通过一个常规的卷积层来学习的，以增加除中心外的常规网格位置。滤波器的形状是可变性的，并且从输入图像图像学习得到。RDC可属于标准的神经网络架构，以增强构建几何转换模型的能力。

A. Formulation

卷积操作用一个滤波器或核在输入特征图X上进行滑移，输出得到特征图Y。对于每个滑移位置 Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras ,常规滤波器是乘以W再加上b，stride步长为1，如下公式：

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras (1)

其中c是输入通道索引号（表示第几个通道），Pb是卷积的基本位置，n=1,…，N其中N=|R| 且Pn∈R 枚举了grid R中的位置。Pm是R的中心，其值为（0，0）设想核的高和宽都是奇数，如3x3, 1x3. 该设想适用于大多数的CNNs. m是中心位置的索引。

deformable卷积通过学习偏移量{ Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras }来增强所有采样点。每个偏移量都有水平和垂直两个方向偏移，总共偏移参数有2N个，则公式（1）变为如下：

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras (2)

H(pn) = pb + pn + ∆pn 是早输入特征图上学习到的采样位置。为了保证空间结构，我们通过固定中心位置来约束deformable卷积。即将中心偏移 Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras 设置为（0，0）。那么Pm就等于（0，0），因此学习到的位置公式如下：

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

(就是说原来卷积核中心位置的base点不偏移，其他非中心点会偏移) ,那么RDC公式可用如下形式表示：