笔记：论文阅读Single-Shot Refifinement Neural Network for Object Detection

用于目标检测的单阶段精细化神经网络（2018.6）

一介绍

目前最先进的两阶段方法比一阶段方法有三个优点：（1）使用启发式抽样的两阶段结构来处理类不平衡；（2）使用两步级联来回归对象盒参数；（3）使用两阶段特征描述对象

单阶段检测器RefineDet，由两个模块组成，即锚定细化模块（ARM）和目标检测模块（ODM）。

前者的目标是（1）过滤掉负锚以减少分类器的搜索空间（2）粗略地调整锚的位置和大小为后续回归器提供更好的初始化。

后一个模块将改进后的锚作为输入，进一步改进回归和预测。同时，设计了一个传输连接模块（TCM）来传输锚定细化模块中的特征，以预测目标检测模块中目标的位置、大小和等级。

multi-task损失函数使得能够端到端地训练整个网络。

在通用目标检测方面取得了优于最新技术的成果

如下图，这两个相互连接的模块模仿了两级结构，从而继承了上述三个优点，以高效率产生准确的检测结果。

笔记：论文阅读Single-Shot Refifinement Neural Network for Object Detection

二。相关工作

Classical Object Detectors.

Two-Stage Approach.

One-Stage Approach.

三。网络结构

整体结构类似于SSD

RefineDet的三个核心组件，即（1）传输连接块（TCB），将ARM的特征转换为ODM进行检测；（2）两步级联回归，精确地回归对象的位置和大小；（3）负锚滤波，及早剔除分类良好的负锚，缓解不平衡问题。

1.TCB

结构如下图：

笔记：论文阅读Single-Shot Refifinement Neural Network for Object Detection

反卷积扩大高级特征图，进行融合，来提高精度

2.两步级联回归。

使用ARM首先调整锚的位置和大小，以便为ODM中的回归提供更好的初始化。

具体地说，将n个锚框与feature map上的每个正则划分单元格相关联。每个锚箱相对于其相应单元格的初始位置是固定的。在每个单元格，预测四个偏移量和两个表示这些框中存在前景对象的置信分数。因此，我们可以在每个特征映射单元处生成n个精定位框。

在经过改进的锚定框之后，将它们传递给ODM中相应的特征映射，ARM和ODM中对应的特征映射具有相同的维数。为每个优化锚定框生成c+4（c类4精确偏移量）输出，以完成检测任务。

3.负锚过滤

针对小目标的类不平衡问题，提出负锚过滤。对于ARM中产生的anchor boxes，如果其负的置信度大于预设值，在训练ODM时就丢掉。相应地，在预测阶段，如果产生的anchor boxes的负置信度大于阈值，在ODM的检测过程中就丢掉。

四。训练和推理

训练样本：随机展开和裁剪原始训练图像，附加随机光度失真并翻转以扩充训练样本，提高鲁棒性。

骨干网络：使用VGG-16和ResNet-101作为RefineDet中的骨干网络，它们在ILSVRC CLS-LOC数据集上进行了预训练。

VGG-16的fc6和fc7转换为卷积层conv fc6和conv fc7。

使用L2规范化对conv43和conv53中的特征范数进行尺度化，然后在反向传播过程中学习尺度。

在截短的VGG-16的末端添加两个额外的卷积层（conv6 1和conv6 2），在截短的ResNet-101的末端添加一个额外的残差块（res6）。

锚设计和匹配。为了处理不同比例的对象，我们为VGG-16和ResNet选择了四个总步长分别为8、16、32和64像素的featuremap，与几个不同尺度的锚相关联，用于预测。每个特征层都与一个特定的锚定比例尺（即比例尺是对应层总跨距的4倍）和三个纵横比（即0.5、1.0和2.0）相关联。

损失函数：由ARM中的损失和ODM中的损失两部分组成

笔记：论文阅读Single-Shot Refifinement Neural Network for Object Detection

i：锚框索引 li*:锚框真值类标签 gi*:锚框真值定位和大小 pi:锚框置信度 Xi锚框精确坐标 Ci TI：ODM中边界框预测对象类和坐标

Narm和Nodm：正锚数目。二元分类损失Lb：交叉熵/对数损失，多类分类损失Lm：soft Max最大损失。使用平滑L1损失作为回归损失Lr。[l∗i≥1]在条件为真时输出1（锚不是负的），否则为0。

五。实验

笔记：论文阅读Single-Shot Refifinement Neural Network for Object Detection