十二篇基于Anchor free的目标检测方法

把检测目标框变成一对关键点的问题，即左上角和右下角，这样就消除了锚框的设计麻烦。另外，采用的角点池化（corner pooling）技术帮助CNN更好地定位角点位置。下图给出了系统流程图：CNN模型输出两个关键点的各自热图（heatmap），同时各跟一个嵌入向量。同一个目标的角点，训练后的神经网络会预测类似的嵌入。

Detect an object as a pair of bounding box corners grouped together

下图是定位的角点池化技术：每个特征图通道沿着两个方向取较大值，然后求和。

Corner pooling

“Ground-truth” heatmaps for training.

测试流程图：沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。

十二篇基于Anchor free的目标检测方法

定义loss函数聚类corner：push和pull

4、ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points

5、FSAF: Feature Selective Anchor-Free Module

主要思想：基于特征金字塔网络(feature pyramid structure，FPN)的在线特征选择能力，在训练时可以动态分配每个实例到最适合的特征层，在推理时能够和带锚的模块分支一起工作，最后并行地输出预测。

anchor-based method

十二篇基于Anchor free的目标检测方法

FSAF module plugged into anchor-based detection methods

下图展示一个特征层中的实例监督信号，其中两个损失函数：分类的focal loss 和目标框回归的IoU loss 。

Supervision signals for an instance in one feature level of the anchor-free branches

在线特征选择的操作如图：每个实例通过无锚框的所有层计算出所有有效区域的分类损失和回归损失，在最小损失的那层构建该实例的监督信号。

十二篇基于Anchor free的目标检测方法

Online feature selection mechanism

十二篇基于Anchor free的目标检测方法

Network architecture of RetinaNet with FSAF module

6、FCOS: Fully Convolutional One-Stage Object Detection

主要思想：是分割，不需要锚框也不需要区域提议。这样，避免了锚框在模型训练中涉及的重叠计算和性能敏感的参数设计环。FCOS中定义了一个新损失函数“中心度（centerness）”，如下图（红和蓝对应 1 和 0，其他颜色位于其中）。

十二篇基于Anchor free的目标检测方法

The network architecture of FCOS

十二篇基于Anchor free的目标检测方法

结果

7、FoveaBox: Beyond Anchor-based Object Detector

主要思想：直接学习目标存在的概率和目标框的坐标位置，其中包括预测类别相关的语义图和生成类别无关的候选目标框，目标框的大小和特征金字塔的表示相关（如图所示）。

FoveaBox object detector

FoveaNet的网络结构如图，一个基于ResNet的特征金字塔网络（FPN）送入两个子网络, 一个做分类，一个做预测。

FoveaBox network architecture

结果

8、Region Proposal by Guided Anchoring (GA-RPN)

利用语义特征指导抛锚，称为指导性的抛锚。一起预测感兴趣目标的中心位置以及不同位置的尺度和长宽比。有代码： //github.com/open-mmlab/m.

GA-RPN

对特征金字塔的每个输出特征图，采用带有两个分支的锚框生成模块分别预测锚位置和形状。一个特征适应模块对原始特征图处理，使其更能体现锚的形状。

Anchor location target

采用多级特征，根据其尺度把真实目标（ground truth objects）提供给不同特征级，相应定义 CR, IR和OR 。

十二篇基于Anchor free的目标检测方法

性能比较

9、CenterNet: Objects as Points

把目标定义成一个单点，即目标框的中心点（下图），检测器采用关键点估计找到中心点并从其关键点的特征回归其他目标特性，如大小，3D位置，朝向和姿势。

object as the center point of its bounding box

(a) Standard anchor based detection. (b) Center point based detection

下面是CenterNet的模型框图，其中数字是步进（stride）量：(a) 沙漏网络；(b) 带转置卷积的ResNet，在每个上采样层前面加了个3 × 3 可变形卷积层（deformable convolutional layer）；(c) 语义分割的DLA-34 (Deep layer aggregation)；(d) 修正的 DLA-34，在可变形卷积层加更多的跳线（skip connections）上采样步骤。