CornerNet论文笔记

粗读概念

1. 论文提出了什么?

论文提出了一种不需要 $anchor\ boxes$ 的目标检测的方法
提出了一种新的 $corner-pooling$ 操作
属于 $anchor-free$ 的方法

2. 论文为什么提出这种方法?解决了什么问题

此前的 $one-stage\ detecor$ 需要在图像上生成许多 $anchor boxes$ , 但是只有少量的 $box$ 能够在
覆盖到有目标的地, 过多的 $negative\ box$ 导致样本不平衡,从而训练缓慢
需要 $anchor boxes$ 的方法通常需要设置许多超参数, 例如 $box$ 数量, 长宽比, 大小等, 这些通常需要一些经验来支持更好的结果

3. 方法描述

CornerNet论文笔记

通过卷积网络生成一组 $top-left\ corner$ 和一组 $bottom-right\ corner$ 以及它们对应的 $embedding\ vector$ , 这个 $vector$ 的作用是匹配属于一个 $object$ 的左上右下的角点

4. corner pooling

作者提出 $corner\ pooling$ 是因为实际中, $object\ box$ 的角点通常是在 $object$ 的外面的, 所以没有本地的依据来进行调整, 如下图所示, 作者提出一种新的 $cornet\ pooling$ 来解决这个问题
具体是对角点的水平和垂直两个方向,分别在 $feature\ map$ 上取各个 $channel$ 上的最大值, 然后再加起来
但是文中提到的两个 $feature\ map$ 是指的什么呢??
以 $top-left\ corner$ 为例, 是 $hourglass\ network$ 生成 $feature\ map$ 分别做水平和垂直 $pooling$ 生成 $t_{ij}$ 和 $l_{ij}$ 的, 本质上是一个 $feature map$

精读部分

3 CornerNet

3.1 overview

$CornerNet$ 通过 $Human\ Pose\ Estimation$ 领域中 $Hourglass\ Network$ 作为 $backbone$ 提取初级特征, 然后将初级特征输入到 $Top-left\ Corners$ 和 $Bottom-right\ Corners$ 两个预测模块中, 经过 $corner\ pooling$ 及后续的 $nn$ 得到 $Heatmaps,\ Embeddings,\ Offsets$ 三个输出, 其中 $Heatmaps$ 为 $C×H×W$ 的 $binary\ mask$ , 有C个 $channels$ 分别对应C个 $classes$ , $H×W$ 分别对应图上的点是否有 $Corners$ , $Embeddings$ 用来对预测的两种 $corners$ 的 $grouping$ ,也就是配对, $Offsets$ 用来微调预测角点的值, 改善网络对小目标的预测结果

3.2 Detecting Corners

这个部分主要讲了两个内容:

$Negative Position$ 的定义: 以 $gt\ position$ 为中心, $radius$ 为半径的圆外的点, 其中radius的大小有 $gt bbox$ 的大小确定,原则如下图所示,大意是 $radius$ 中点组成的 $box$ 与 $gt box$ 的 $IOU$ 最小为 $t$ , 文中的括号里 $0:3$ 没看懂,感觉是笔误,应该是 $0.3$ 吧(这个不太确定). 对于 $negative position$ 的 $penalty$ , 作者使用 $2D Gaussians=e^{-(x^2+y^2)/2\times\sigma^2}$ 生成一个 $gt\ heatmap$ 为 $y_{cij}$ , 以 $gt\ position$ 为中心,方差为 $radius/3$ , 从公式可以看到对于生成的 $heatmap$ 某个点若对应 $y_{cij}=1$ (即对应 $gt\ position$ ),按照上式求 $loss$ , 对于其他 $negative\ position$ ,越接近 $gt\ position$ , 那么 $(1-y_{cij})$ 则越小, 也就是惩罚越小,来计算 $loss$ .
$Offsets$ : 许多网络下采样后将预测的左边remap回原始图像时通常会损失一些精确度, 所以作者在 $CornerNet$ 中设置 $offsets$ 来微调预测的坐标使结果更准确.其中 $(2)$ 式为计算偏差公式, 那么 $\omicron_{k}$ 和 $\hat\omicron_{k}$ 分别对应 $gt\ offset$ 与 $predict\ offset$ , 最后通过 $SmoothL1Loss$ 来学习. $SmoothL1Loss$ 是 $Fast\ RCNN$ 中提出的,相比 $L1$ 收敛更快,相比 $L2$ 对于离群点、异常值更加鲁棒,训练不容易跑飞

CornerNet论文笔记

3.3 Grouping Corners

这个部分讲如何将预测的 $corners$ 进行配对,文中写的方法是based on the distance between the embeddings of corners ,但是具体距离的计算公式什么,文中没有给出,也许可以在作者提到的 $Newell$ 的论文中有提到, 此外作者引用 $Newell$ 论文中 $pull-push$ 的方法训练使成对的 $corner$ 接近,不成对的进行远离.

CornerNet论文笔记

3.4 Corner Pooling

大概原理如下图所示, 文中说的 $vector$ 应该指的是 $1\times channel$ , 也就是从 $spatial$ 的每个点看向 $channel$ 方向, 下图是一个 $channel$ 的 $top-left\ corner\ pooling$ 情形,分别从右往左与从下往上 $max\ pooling$
CornerNet论文笔记

4 Experiments

实验中作者验证了论文几个 $key\ components$ 的结果,总结如下:

不同 $pooling$ 方式的对比显示 $corner pooling$ 在 $AP$ 上提高2%
$negative\ penalty$ 中 $radius$ 的三种方式对比, 不要 $radius$ 效果最差, $fixed\ radius$ 提高接近3%, $object-dependent\ radius$ 提高5.5%(这个是文中使用的方法)
在 $backbone network$ 的对比中 $Hourglass+corners$ 比 $FPN+corners$ 提到6%多, 性能差别还是挺大的.