anchor boxes是学习卷积神经网络用于目标识别过程中最重要且最难理解的一个概念。这个概念最初是在Faster R-CNN中提出,此后在SSD、YOLOv2、YOLOv3等优秀的目标识别模型中得到了广泛的应用,这里就详细介绍一下anchor boxes到底是什么?有什么作用?在哪里起作用?

锚框:Anchor box综述
问题1:为什么需要anchor box?
要了解为什么需要anchor box需要首先了解一下在此之前的一些目标识别方法。

1.滑动窗口

这是比较原始的目标检测方法,给定一个固定尺寸的窗口,根据设定的步伐,一步一步的从左至右、从上至下滑动,把每个窗口输入到卷积神经网络中进行预测和分类,这样做有两个缺点:

由于窗口尺寸固定,因此不适合形变较大的物体
窗口较多,运算量大

2.region proposal

锚框:Anchor box综述
这是R-CNN系列中核心的思想,以Faster R-CNN为例,模型中使用了两个神经网络,一个是是CNN,一个是RPN(Regional Proposal),区域建议网络不负责图像的分类,它只负责选取出图像中可能属于数据集其中一类的候选区域。接下来就是把RPN产生的候选区域输入到分类网络中进行最终的分类。

3.anchor box

anchor box第一次是出现在Faster R-CNN的论文里,要理解anchor box 首先要理解两个问题。

为什么提出anchor box?

主要有两个原因:

  • 一个窗口只能检测一个目标
  • 无法解决多尺度问题。
    锚框:Anchor box综述
    以往的模型一个窗口只能预测一个目标,把窗口输入到分类网络中,最终得到一个预测概率,这个概率偏向哪个类别则把窗口内的目标预测为相应的类别,例如在图中红色框内回归得到的行人概率更大,则认为这个目标为行人。此外,在解决多尺度问题时主要采用一种思想–金字塔,或者是例如DPM模型中经典的特征金字塔。在不同分辨率的特征图下检测不同尺寸的目标。但是这样存在一个问题,就是大大的增加了计算量。

为什么使用不同尺寸和不同长宽比?

锚框:Anchor box综述

为了得到更大的交并比(intersection over union, IOU)。

以训练阶段为例。

对于计算机视觉,比较容易理解的是真实标签(ground truth),人为为每个目标标记的标签。但是在加入anchor box思想之后,在训练集中,我们将每个锚框视为一个训练样本。因此,为了训练目标模型,需要标记每个anchor box的标签,这里的标签包括两个部分:

  • 类别标签
  • 偏移量

有多个anchor box,到底该选取哪一个呢?这是就要通过交并比进行选择。试想一下,如果用一个固定尺寸的anchor,那么对于anchor的标记就没有了针对性。

锚框:Anchor box综述
举例说明一下,图中棕色的为行人的真实标签,黄色的为车辆的真实标签,红色的框是从feature map映射的anchor box,这样的话通过交并比就很难获取feature map中每个单元对应的标签。

锚框:Anchor box综述
锚框:Anchor box综述

这样的话,可以用anchor box1与行人的交并比比较大,可以用于训练和预测行人,anchor box 2与汽车的交并比较大,可以用于训练和预测汽车。使用不同长宽比和尺寸的anchor box,这样更加具有针对性。

锚框:Anchor box综述
锚框:Anchor box综述
锚框:Anchor box综述
锚框:Anchor box综述

训练

锚框:Anchor box综述

训练阶段在什么时候触发anchor box?

锚框:Anchor box综述
锚框:Anchor box综述

2.预测阶段

在模型的预测阶段,怎么才能获得预测的边界框呢?

首先在图像中生成多个anchor box,然后根据训练好的模型参数去预测这些anchor box的类别和偏移量,进而得到预测的边界框。由于阈值和anchor box数量选择的问题,同一个目标可能会输出多个相似的预测边界框,这样不仅不简洁,而且会增加计算量,为了解决这个问题,常用的措施是使用非极大值抑制(non-maximum suppression,NMS)。
NMS就是一个抑制冗余的反复迭代-遍历的过程。

锚框:Anchor box综述

相关文章: