Cornernet-Lite

CornerNet-Saccade先检测图像中可能的对象位置周围的小区域图像。它使用缩小的完整图像来预测attention map和粗略的bounding box，两者都显示可能的对象位置。然后CornerNet-Saccade通过检查以高分辨率的位置中心的区域来检测对象。此外，通过控制目标位置的最大数量来处理每幅图像，从而提高了准确性和效率。图2显示了pipline的概况。
Cornernet-Lite

3.1. Estimating Object Locations

CornerNet-Saccade的第一步是获取图像中可能二点对象位置。我们使用缩小的全图像来预测attention map，它既显示了位置，也显示了位置上物体的粗略尺度。给定一幅图像，我们将图像的较长部分调整为255像素和192像素，从而将其缩小到两个比例尺。大小192的图像用零填充到255，这样就可以并行处理它们。在如此低的分辨率下使用图像有两个原因。首先，这个步骤不应该成为inference时间的瓶颈。其次，网络应该很容易的利用图像中的上下文信息来预测attention map。

For a downsized image，CornerNet-Saccade预测了三张attention maps，用于小对象、中对象、大对象。如果对象的边框较长的边，则被认为是小的，32到96之间为是中等的，如果大于96则认为是大的。分别预测不同对象大小的位置可以使我更好的控制CornerNet-Saccade应该放大每个位置的数量。我们可以放大更多的小物体位置，更少的在中等对象的位置。

我们使用不同尺度的特征图来预测attention map，特征图是从CornerNet-Saccade骨干网络中获得的，hourglass network，网络中的每个沙漏模块应用几个卷积和下采样层来缩小输入特征map的大小，然后通过多个卷积和上采样层将特征映射回原始输入分辨率。利用上采样层的特征图来预测attention map，较细尺度的特征map用于较小的对象，而粗尺度的特征map用于较大的对象，通过将3 × 3 ConvReLU 模块 followed by a 1 × 1 Conv-Sigmoid 模块分别应用于每个特征map来预测attention map。在测试过程中，我们只处理分数高于阈值t的位置，并在试验中设置t=0.3。

当CornerNet-Saccade处理缩小的图像时，他可能检测到图像中的一些对象并为它们生成边界框，从缩小的图像中获得的bounding box可能不准确。因此，我们也检查高分辨率的区域，以获得更好的bounding box。

在训练过程中，我们将相应的attention map上的每个bounding box的中心位置设置为正例，其它的都为负例，然后应用α=2的focal损失。

3.2. Detecting Objects

CornerNet-Saccade如果我们从图像中获得得的位置来确定处理的位置。如果我们从缩小的图像中直接裁剪区域，一些物体可能会变得太小，无法准确检测。因此，我们应该根据第一步获得的尺度信息，以更高的分辨率检查区域。

3.3. Trading Accuracy with Efficiency

我们可以通过控制目标位置的最大数量来处理每幅图像，从而有效的提高精度。在我们获得位置之后，我们根据它们的分数对它们进行排序，并对从bounding box中得到的位置进行排序。考虑到处理Kmax的crops数量最大，我们就在Kmax对象位置上检测对象。

3.4. Suppressing Redundant Object Locations
Cornernet-Lite

当对象彼此接近时，我们可能产生彼此高度重叠的区域，如图4，处理这两个区域中的任何一个都可能检测到另外一个对象，我们采用类似于NMS的程序来删除冗余位置。首先，我们对目标位置进行排序，从包围框中的位置优先于attention map上的位置。然后，我们保留最佳对象位置，并移除接近最佳位置的位置。我们重复这个过程，直到没有位置被留下。

3.5. Backbone Network

我们设计了一个新的hourglass backbone，深度为54层。

4. CornerNet-Squeeze
4.1. Overview

在CornerNet中，大部分时间花费在了HourGlass-104上。为了降低HourGlass-104的的复杂性，我们采用了squeezeNet和MobileNets的想法。

4.2. Ideas from SqueezeNet and MobileNets

SqueezeNet提出了三种降低网络复杂度的策略（1）将3×3的kernel替换为1×1的kernel（2）将输入信道减少的3×3的kernel（3）下采样延迟。

在mobilenet的启发下，我们将第二层的3×3卷积替换为3×3的深度可分卷积，从而进一步缩短了inference 的时间，我们没有使用Squeezenet的第三个想法，由于hourglass网络具有对称的结构，延迟下采样会妨碍我们实现实时监测。
Cornernet-Lite