Cornernet-Lite

CornerNet-Saccade先检测图像中可能的对象位置周围的小区域图像。它使用缩小的完整图像来预测attention map和粗略的bounding box,两者都显示可能的对象位置。然后CornerNet-Saccade通过检查以高分辨率的位置中心的区域来检测对象。此外,通过控制目标位置的最大数量来处理每幅图像,从而提高了准确性和效率。图2显示了pipline的概况。
Cornernet-Lite

3.1. Estimating Object Locations

CornerNet-Saccade的第一步是获取图像中可能二点对象位置。我们使用缩小的全图像来预测attention map,它既显示了位置,也显示了位置上物体的粗略尺度。给定一幅图像,我们将图像的较长部分调整为255像素和192像素,从而将其缩小到两个比例尺。大小192的图像用零填充到255,这样就可以并行处理它们。在如此低的分辨率下使用图像有两个原因。首先,这个步骤不应该成为inference时间的瓶颈。其次,网络应该很容易的利用图像中的上下文信息来预测attention map。

For a downsized image,CornerNet-Saccade预测了三张attention maps,用于小对象、中对象、大对象。如果对象的边框较长的边,则被认为是小的,32到96之间为是中等的,如果大于96则认为是大的。分别预测不同对象大小的位置可以使我更好的控制CornerNet-Saccade应该放大每个位置的数量。我们可以放大更多的小物体位置,更少的在中等对象的位置。

我们使用不同尺度的特征图来预测attention map,特征图是从CornerNet-Saccade骨干网络中获得的,hourglass network,网络中的每个沙漏模块应用几个卷积和下采样层来缩小输入特征map的大小,然后通过多个卷积和上采样层将特征映射回原始输入分辨率。利用上采样层的特征图来预测attention map,较细尺度的特征map用于较小的对象,而粗尺度的特征map用于较大的对象,通过将3 × 3 ConvReLU 模块 followed by a 1 × 1 Conv-Sigmoid 模块分别应用于每个特征map来预测attention map。在测试过程中,我们只处理分数高于阈值t的位置,并在试验中设置t=0.3。

当CornerNet-Saccade处理缩小的图像时,他可能检测到图像中的一些对象并为它们生成边界框,从缩小的图像中获得的bounding box可能不准确。因此,我们也检查高分辨率的区域,以获得更好的bounding box。

在训练过程中,我们将相应的attention map上的每个bounding box的中心位置设置为正例,其它的都为负例,然后应用α=2的focal损失。

3.2. Detecting Objects

CornerNet-Saccade如果我们从图像中获得得的位置来确定处理的位置。如果我们从缩小的图像中直接裁剪区域,一些物体可能会变得太小,无法准确检测。因此,我们应该根据第一步获得的尺度信息,以更高的分辨率检查区域。

3.3. Trading Accuracy with Efficiency

我们可以通过控制目标位置的最大数量来处理每幅图像,从而有效的提高精度。在我们获得位置之后,我们根据它们的分数对它们进行排序,并对从bounding box中得到的位置进行排序。考虑到处理Kmax的crops数量最大,我们就在Kmax对象位置上检测对象。

3.4. Suppressing Redundant Object Locations
Cornernet-Lite

当对象彼此接近时,我们可能产生彼此高度重叠的区域,如图4,处理这两个区域中的任何一个都可能检测到另外一个对象,我们采用类似于NMS的程序来删除冗余位置。首先,我们对目标位置进行排序,从包围框中的位置优先于attention map上的位置。然后,我们保留最佳对象位置,并移除接近最佳位置的位置。我们重复这个过程,直到没有位置被留下。

3.5. Backbone Network

我们设计了一个新的hourglass backbone,深度为54层。

4. CornerNet-Squeeze
4.1. Overview

在CornerNet中,大部分时间花费在了HourGlass-104上。为了降低HourGlass-104的的复杂性,我们采用了squeezeNet和MobileNets的想法。

4.2. Ideas from SqueezeNet and MobileNets

SqueezeNet提出了三种降低网络复杂度的策略(1)将3×3的kernel替换为1×1的kernel(2)将输入信道减少的3×3的kernel(3)下采样延迟。

在mobilenet的启发下,我们将第二层的3×3卷积替换为3×3的深度可分卷积,从而进一步缩短了inference 的时间,我们没有使用Squeezenet的第三个想法,由于hourglass网络具有对称的结构,延迟下采样会妨碍我们实现实时监测。
Cornernet-Lite

相关文章: