论文地址:Focal Loss for Dense Object Detection

 

这是凯明大神所在的facebook AI工作组18年提出来的一篇目标检测的论文

文中提到说,目前目标检测有两种类型框架,

一种是two-stage,例如RCNN、fastRCNN、fasterRCNN、maskRCNN等这一系列的,two-stage分为两个阶段,第一个阶段使用CNN提取到特征图之后,使用region proposal network得到类别的感兴趣区域,第二个阶段使用classifier进行类别的回归,最终实现检测,这种方式分两个步骤,比较麻烦,检测速度比较慢,但是效果准确率很高

另一种就是one-stage,例如YOLO、SSN等这一系列的,只有一个阶段,直接使用CNN提到多尺度特征图之后,根据人为选定的anchor,使用不同scale和不同aspect ratios在不同尺度的feature map上进行感兴趣区域的提取,以来覆盖整个图片,然后直接对这些感兴趣anchor使用CNN进行位置和类别的回归,最后使用Non-Maximum Suppression得到最终的检测结果,一步达到检测的结果, 这种方式一步到位,检测速度较快,但是准确率相较于two-stage的方法有所下降

这篇文章分析one-stage对于two-stage的方法准确率下降的原因在于类别分布不均不平衡,two-stage使用proposal的方法(Selective Search , EdgeBoxes ,DeepMask , RPN )在每张图上能得到1-2k左右的感兴趣区域,很大程度上过滤掉了背景,只留下需要分类的前景,但是one-stage使用多尺度anchor的方法在每张图上能到100k左右的感兴趣区域,相当于是对全图的均匀采样,并没有区分掉背景和需要分类的前景,背景和需要分类的前景之间的数量分布不存,使用传统的交叉熵loss(-logp)会导致训练效果降低,因此检测率有所下降,因此本文提出了一种能够解决这种类别不平衡的loss,称为focal loss,为了验证这个focal loss有效,提出了one-stage网络RetinaNet来验证

FOCAL LOSS

1、cross entropy loss(CE loss)

[深度学习从入门到女装]RetinaNet

[深度学习从入门到女装]RetinaNet

[深度学习从入门到女装]RetinaNet

 

2、Balanced Cross Entropy

[深度学习从入门到女装]RetinaNet

就是使用一个超参数来调节

 

3、Focal Loss

[深度学习从入门到女装]RetinaNet

[深度学习从入门到女装]RetinaNet=0的时候就变成balanced CE,本文的实验中[深度学习从入门到女装]RetinaNet=2效果最好

 

RetinaNet

[深度学习从入门到女装]RetinaNet

RetinaNet结构如图所示,就是resNet+FPN的合体,在FPN上的每层feature map上使用CNN进行class和box的子网络回归

 

相关文章:

  • 2022-01-04
  • 2021-10-14
  • 2021-07-24
  • 2021-11-01
  • 2021-12-14
  • 2021-04-23
  • 2021-04-07
  • 2021-12-21
猜你喜欢
  • 2022-01-17
  • 2021-12-06
  • 2021-04-14
  • 2021-08-05
  • 2021-12-26
  • 2021-12-25
相关资源
相似解决方案