[深度学习从入门到女装]RetinaNet

论文地址：Focal Loss for Dense Object Detection

这是凯明大神所在的facebook AI工作组18年提出来的一篇目标检测的论文

文中提到说，目前目标检测有两种类型框架，

一种是two-stage，例如RCNN、fastRCNN、fasterRCNN、maskRCNN等这一系列的，two-stage分为两个阶段，第一个阶段使用CNN提取到特征图之后，使用region proposal network得到类别的感兴趣区域，第二个阶段使用classifier进行类别的回归，最终实现检测，这种方式分两个步骤，比较麻烦，检测速度比较慢，但是效果准确率很高

另一种就是one-stage，例如YOLO、SSN等这一系列的，只有一个阶段，直接使用CNN提到多尺度特征图之后，根据人为选定的anchor，使用不同scale和不同aspect ratios在不同尺度的feature map上进行感兴趣区域的提取，以来覆盖整个图片，然后直接对这些感兴趣anchor使用CNN进行位置和类别的回归，最后使用Non-Maximum Suppression得到最终的检测结果，一步达到检测的结果，这种方式一步到位，检测速度较快，但是准确率相较于two-stage的方法有所下降

这篇文章分析one-stage对于two-stage的方法准确率下降的原因在于类别分布不均不平衡，two-stage使用proposal的方法（Selective Search , EdgeBoxes ,DeepMask , RPN ）在每张图上能得到1-2k左右的感兴趣区域，很大程度上过滤掉了背景，只留下需要分类的前景，但是one-stage使用多尺度anchor的方法在每张图上能到100k左右的感兴趣区域，相当于是对全图的均匀采样，并没有区分掉背景和需要分类的前景，背景和需要分类的前景之间的数量分布不存，使用传统的交叉熵loss（-logp）会导致训练效果降低，因此检测率有所下降，因此本文提出了一种能够解决这种类别不平衡的loss，称为focal loss，为了验证这个focal loss有效，提出了one-stage网络RetinaNet来验证