一、概述

  • SNIPER是用于提升多尺度训练(multi-scale training)速度的通用处理方法,主要探讨不使用图像金字塔时如何保持甚至提升网络的检测性能。目标检测领域将图像金字塔作为多尺度训练的手段之一是基于这样一个共识:对原图进行上采样后得到的大图对网络的检测性能至关重要。SNIPER对此观点提出了挑战,提出使用小分辨率图像训练网络可以在保持网络检测性能的同时提高检测速度的观点。
  • 小分辨率图像与多尺度检测,看似矛盾的话题,SNIPER如何将其统一?相信你也很好奇,请往下看。

二、Motivation

  • 所谓人工智能,是用机器模仿人类,完成人类的工作。人类视觉在观察目标时,会对背景模糊,这被称为人类视觉的“局部感知”特性。模仿人类视觉的目标检测网络从图像中检测目标时,将一整张图像送入网络进行处理,一方面,这与人类视觉的“局部感知”特性相悖,另一方面,对大图像的检测效率会显著降低。同时,有研究表明,进行多尺度训练时,忽略大图片上的大目标和小图片上的小目标有助于提升模型性能[1]。从以上两点出发,自然会有这样的想法:①对于上采样后的图片,能否只使用小目标周围的图像块?②如果原图片本身就很大,是否仍有必要进一步上采样?
  • 谈起目标检测,绕不开RCNN系列检测器。RCNN将得到的proposals resize至224*224,再送入网络进行训练,这种对proposal先resize再用于训练的方式有个潜在优点:保持了网络的多尺度检测能力。具体讲,不论大proposal,还是小proposal,resize后尺度是一致的,网络的训练都在这一个尺度上,检测时网络自然也具有多尺度检测能力。Fast RCNN共享卷积层,大proposal映射得到大feature,小proposal映射得到小feature,尺度不变性较差(使用RoI Pooling可缓解尺度不变性差的问题)。总结一下,RCNN对proposal进行resize的方式有助于提升多尺度检测性能,Fast RCNN共享卷积层,检测速度快,问题来了,能否结合这二者的优点?
  • 从以上几点出发,提出了SNIPER,首先从不同分辨率的图像上获取图像块(chips),从这些图像块中选择正类样本,再使用RPN网络得到负类样本,训练网络。

三、SNIPER

3.1获取图像块(Chip Generation)

  • 对每张图像的每个尺度,得到图像块,图像块的大小为K*K(论文中K取512),滑动步长为d(论文中d取32)

3.2 选择正类图像块(Positive Chip Selection)

  • 首先为每个尺度的图像分别确定一个区间,该尺度下若图像中的ground truth的面积落入该区间,则该ground truth为该尺度下有效的ground truth,否则为无效的ground truth。
  • 此时每张图像中均包含有效ground truth和无效ground truth。依据“greedily selection”原则,从每张图片的chips中选择pos chips,以使尽可能多的有效ground truth被pos chips覆盖。pos chips中的无效ground truth不参与训练。与pos chip部分相交的有效ground truth被保留。

目标检测(Object detection)—— SNIPER

3.3 选择负类图像块(Negative Chip Selection)

  • 通过上述方式,只得到了positive chips,相比原图像,positive chips中包含的背景信息太少,容易造成false positive比例过高,因此,需要专门得到一些hard negative chips。
  • 首先,用原训练集图片训练一个RPN网络,只训练一两个epoch即可,用训练出的模型检测原测试集图片,此时得到的proposal中自然包含正类检测结果和与正类非常相似的负类检测结果(hard negative)。然后移除被positive chips覆盖的proposal,再选择chips中至少包含M个proposal的chip,这时就得到negative chips。

3.4 标签赋值

  • 上述得到的chips是作为输入图像送入网络进行训练的,送入网络前先要对其中的ground truth进行赋值。
  • 对positive chips,将与原始ground truth的IOU>0.5的proposal标注为正类样本。对negative chips,保留其中的负类样本。

3.5 SNIPER的优点

  • SNIPER在coco数据集上进行实验,每张图像平均产生5个512512的chips(三个尺度下)。总像素数只比8001333分辨率的coco数据集多了30%,但实现了多尺度分辨率。
  • 同时,由于chip的分辨率很小,因此可采用group normalization

四、实验结果

目标检测(Object detection)—— SNIPER
目标检测(Object detection)—— SNIPER
目标检测(Object detection)—— SNIPER

相关文章:

  • 2021-12-09
  • 2021-11-27
  • 2021-09-12
  • 2022-12-23
  • 2021-06-21
  • 2021-06-30
猜你喜欢
  • 2021-08-22
  • 2022-01-10
  • 2021-12-16
  • 2021-07-23
  • 2022-01-15
  • 2021-07-28
  • 2021-09-06
相关资源
相似解决方案