Focal Loss for Dense Object Detection(密集目标检测中的焦距损失)

Focal Loss for Dense Object Detection

原文链接：https://arxiv.org/pdf/1708.02002.pdf

作者信息：

Tsung-Yi Lin Priya Goyal Ross Girshick Kaiming He Piotr Dollár
Facebook AI Research (FAIR)

Focal Loss for Dense Object Detection(密集目标检测中的焦距损失)

图1。我们提出了一个新的损失，我们称之为局部损失，它在标准交叉熵准则中增加了一个因子（1-pt）γ。设置γ>0可减少分类良好的样本的相对损失（pt>0.5），将更多精力放在难分类的示例上。正如我们的实验将证明的那样，所提出的焦距损失能够在大量简单的背景例子面前训练高精度的密集目标探测器。

Focal Loss for Dense Object Detection(密集目标检测中的焦距损失)

图2。COCO测试设备上的速度（ms）与精度（AP）对比。由于焦距损失，我们简单的一级视网膜网络检测器优于所有先前的一级和两级检测器，包括[19]中报告的最快的R-CNN[27]系统。我们用ResNet-50-FPN（蓝色圆圈）和ResNet-101-FPN（橙色菱形）在五个尺度（400-800像素）显示RetinaNet的变体。忽略低精度区域（AP<25），RetinaNet形成所有电流检测器的上包络，训练更长时间的变体（未显示）达到39.1ap。详情见第5条。

Abstract

迄今为止，最精确的目标检测器是基于R-CNN推广的两阶段方法，其中分类器应用于稀疏的候选目标位置集。相比之下，在对可能的目标位置进行规则、密集采样的基础上应用的一级探测器有可能更快、更简单，但迄今已落后于两级探测器的精度。在本文中，我们将调查为什么会出现这种情况。我们发现，在密集探测器训练过程中所遇到的极端前景背景类不平衡是造成这种现象的主要原因。我们建议通过重塑标准的交叉熵损失来解决这一类不平衡问题，从而降低分配给分类良好示例的损失的权重。我们的新的焦点损失集中在一组稀疏的硬例子上训练，并防止大量容易的负面影响在训练期间压倒探测器。为了评估损失的有效性，我们设计并训练了一个简单的密集检测器，我们称之为RetinaNet。研究结果表明，当使用焦损失训练时，RetinaNet能够与以往的单级检测器速度相匹配，同时超过了现有的所有最先进的两级检测器的精度。

1. Introduction

目前最先进的目标探测器是基于一个两阶段，建议驱动机制。正如R-CNN框架[11]中所推广的，第一阶段生成候选对象位置的稀疏集，第二阶段使用卷积神经网络将每个候选位置分类为前景类之一或背景。通过一系列的改进[10，27，19，13]，这个两阶段的框架在具有挑战性的COCO基准上始终达到了最高的精度[20]。

尽管两级探测器取得了成功，但一个自然要问的问题是：一个简单的一级探测器能否达到类似的精度？一级探测器应用于对物体位置、比例和纵横比的规则密集采样。最近对一级检测器的研究，如YOLO[25，26]和SSD[21，9]显示了有希望的结果，与最新的两级方法相比，产生了更快的检测器，准确度在10-40%以内。

本文进一步推陈出新：我们提出了一种单级目标检测器，它第一次与更复杂的两级检测器的最新COCO-AP相匹配，如特征金字塔网络（FPN）[19]或快速R-CNN的掩模R-CNN[13]变体[27]。为了实现这一结果，我们将训练过程中的类不平衡识别为阻碍一级检测器获得最新精度的主要障碍，并提出了一种新的消除这一障碍的损失函数。

类不平衡问题在类R-CNN检测器中通过两级级联和采样启发式算法得到解决。建议阶段（例如，选择性搜索[34]、EdgeBoxes[37]、DeepMask[23，24]、RPN[27]）快速地将候选对象位置的数目缩小到一个小数目（例如，1-2k），过滤掉大多数背景样本。在第二分类阶段，为了在前景和背景之间保持可管理的平衡，执行采样启发，例如固定的前景与背景比（1:3）或在线硬示例挖掘（OHEM）[30]。

相比之下，一级检测器必须处理一组更大的候选对象位置，这些候选对象位置在图像上定期采样。在实践中，这通常相当于枚举密集覆盖空间位置、比例和纵横比的100k个位置。虽然也可以应用类似的抽样启发法，但它们效率低下，因为训练过程仍然由容易分类的背景示例支配。这种效率低下是对象检测中的一个典型问题，通常通过引导（bootstrapping）[32，28]或硬示例挖掘（hard example mining）[36，8，30]等技术来解决。

在本文中，我们提出一个新的损失函数，作为一个更有效的替代以往的方法来处理类不平衡。损失函数是一个动态标度的交叉熵损失，当正确类的置信度增加时，标度因子衰减为零，见图1。直观地说，这个比例因子可以自动降低训练过程中简单示例的权重，并快速地将模型集中在硬示例上。实验表明，我们提出的局部丢失使我们能够训练出一种高精度的单级检测器，其性能明显优于以往训练单级检测器的技术，即采样启发式或硬示例挖掘。最后，我们注意到焦点损失的确切形式并不重要，而且其他实例可以获得近似结果。

为了证明所提出的焦距损失的有效性，我们设计了一种简单的单级目标检测器RetinaNet，该检测器以对输入图像中的目标位置进行密集采样命名。它的设计特点是一个高效的网络特征金字塔和锚箱的使用。它借鉴了来自[21，6，27，19]的各种最新观点。RetinaNet是高效和准确的；我们的最佳模型基于ResNet-101FPN主干网，在以5 fps的速度运行时实现了39.1的COCO测试开发AP，超过了先前发布的单级和两级检测器的最佳单模型结果，见图2。