用于目标检测的单阶段精细化神经网络(2018.6)

一介绍

目前最先进的两阶段方法比一阶段方法有三个优点:(1)使用启发式抽样的两阶段结构来处理类不平衡;(2)使用两步级联来回归对象盒参数;(3) 使用两阶段特征描述对象

单阶段检测器RefineDet,由两个模块组成,即锚定细化模块(ARM)和目标检测模块(ODM)。

前者的目标是(1)过滤掉负锚以减少分类器的搜索空间(2)粗略地调整锚的位置和大小为后续回归器提供更好的初始化。

后一个模块将改进后的锚作为输入,进一步改进回归和预测。同时,设计了一个传输连接模块(TCM)来传输锚定细化模块中的特征,以预测目标检测模块中目标的位置、大小和等级。

multi-task损失函数使得能够端到端地训练整个网络。

在通用目标检测方面取得了优于最新技术的成果

如下图,这两个相互连接的模块模仿了两级结构,从而继承了上述三个优点,以高效率产生准确的检测结果。

笔记:论文阅读Single-Shot Refifinement Neural Network for Object Detection

二。相关工作

Classical Object Detectors.

Two-Stage Approach.

One-Stage Approach.

三。网络结构

整体结构类似于SSD

RefineDet的三个核心组件,即(1)传输连接块(TCB),将ARM的特征转换为ODM进行检测;(2)两步级联回归,精确地回归对象的位置和大小;(3)负锚滤波,及早剔除分类良好的负锚,缓解不平衡问题。

1.TCB

结构如下图:

笔记:论文阅读Single-Shot Refifinement Neural Network for Object Detection

反卷积扩大高级特征图,进行融合,来提高精度

2.两步级联回归。

使用ARM首先调整锚的位置和大小,以便为ODM中的回归提供更好的初始化。

具体地说,将n个锚框与feature map上的每个正则划分单元格相关联。每个锚箱相对于其相应单元格的初始位置是固定的。在每个单元格,预测四个偏移量和两个表示这些框中存在前景对象的置信分数。因此,我们可以在每个特征映射单元处生成n个精定位框。

在经过改进的锚定框之后,将它们传递给ODM中相应的特征映射,ARM和ODM中对应的特征映射具有相同的维数。为每个优化锚定框生成c+4(c类4精确偏移量)输出,以完成检测任务。

3.负锚过滤

针对小目标的类不平衡问题,提出负锚过滤。对于ARM中产生的anchor boxes,如果其负的置信度大于预设值,在训练ODM时就丢掉。相应地,在预测阶段,如果产生的anchor boxes的负置信度大于阈值,在ODM的检测过程中就丢掉。

四。训练和推理

训练样本:随机展开和裁剪原始训练图像,附加随机光度失真并翻转以扩充训练样本,提高鲁棒性。

骨干网络:使用VGG-16和ResNet-101作为RefineDet中的骨干网络,它们在ILSVRC CLS-LOC数据集上进行了预训练。

VGG-16的fc6和fc7转换为卷积层conv fc6和conv fc7。

使用L2规范化对conv43和conv53中的特征范数进行尺度化,然后在反向传播过程中学习尺度。

在截短的VGG-16的末端添加两个额外的卷积层(conv6 1和conv6 2),在截短的ResNet-101的末端添加一个额外的残差块(res6)。

锚设计和匹配。为了处理不同比例的对象,我们为VGG-16和ResNet选择了四个总步长分别为8、16、32和64像素的featuremap,与几个不同尺度的锚相关联,用于预测。每个特征层都与一个特定的锚定比例尺(即比例尺是对应层总跨距的4倍)和三个纵横比(即0.5、1.0和2.0)相关联。

损失函数:由ARM中的损失和ODM中的损失两部分组成

笔记:论文阅读Single-Shot Refifinement Neural Network for Object Detection

i:锚框索引  li*:锚框真值类标签  gi*:锚框真值定位和大小 pi:锚框置信度 Xi锚框精确坐标 Ci TI:ODM中边界框预测对象类和坐标

Narm和Nodm:正锚数目。二元分类损失Lb:交叉熵/对数损失,多类分类损失Lm:soft Max最大损失。使用平滑L1损失作为回归损失Lr。[l∗i≥1]在条件为真时输出1(锚不是负的),否则为0。

五。实验

笔记:论文阅读Single-Shot Refifinement Neural Network for Object Detection

笔记:论文阅读Single-Shot Refifinement Neural Network for Object Detection

 

相关文章: