CenterNet论文学习解读

$\hat Y _{x,y,c} = 1$ 表示检测到的关键点
$\hat Y _{x,y,c} = 0$ 表示背景
将真实关键点分布到特征图上，真实关键点 $p \in R^2$ 对于下采样后的坐标，我们设为 $\tilde p = |\frac{p}{R}|$ ，通过高斯核分散到热力图 $\hat Y$ 上，如果对于同个类 c （同个关键点或是目标类别）有两个高斯函数发生重叠，我们选择元素级最大的。

$Y _{xyc} = exp(-\frac{(x- \tilde p_x)^2 + (y- \tilde p_y)^2}{2\sigma^2_p})$
CenterNet论文学习解读

高斯生成的中心点

损失函数

中心点损失函数，像素级逻辑回归的focal loss

$L_k = \frac{-1}{N}\sum \begin{cases}(1 - \hat Y_{xyc})^\alpha log(\hat Y_{xyc}), \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ifY_{xyc}=1 \\ \\ (1-Y_{xyc})^\beta(\hat Y_{xyc})^\alpha log(1-\hat Y_{xyc}), \ \ otherwise \end{cases}$
其中 $\alpha$ 和 $\beta$ 是focal loss的超参数，实验中两个数分别设置为2和4， N是图像 I 中的关键点个数，除以N主要为了将所有focal loss归一化。

解读：

如果预测的中心点真值为1，那该点为易学目标，更加减小预测正确的损失值，增大错误的损失值。

如果预测的中心点真值不为1，真值中心点很少，正负样本不均衡，通过 $(1-Y_{xyc})^\beta$ 加大远离真值为1的中心点损失值，减小靠近真值1的中心点损失值。靠近真实点的地方为易学点通过 $(\hat Y_{xyc})^\alpha$ 增大靠近真实点预测错误的损失值， $(1-Y_{xyc})^\beta$ 和 $(\hat Y_{xyc})^\alpha$ 在靠近真实点处相互牵制

目标中心的偏置损失,下采样4倍的真实关键点可能为小数，而预测点为整数，映射到原始图像，会有精度误差，这个偏置值用L1 loss来训练

$L_{off} = \frac{1}{N}\sum_{p}|\hat O_{\tilde p} - (\frac{P}{R} - \tilde p)|$
$\hat O_{\tilde p}$ 是我们预测出来的偏置， $(\frac{P}{R} - \tilde p)$ 则是在训练过程中提前计算出来的实际误差

目标大小的损失，对每个目标的size进行回归，最终回归到 $s_k = ( x_2^{(2)} - x_1^{(2)}, y_2^{(2)} - y_1^{(2)})$ ，使用L1 loss来训练

$L_{size} = \frac{1}{N}\sum_{k=1}^N|\hat S_{p_k} - s_k|$

整体的损失函数为物体损失、大小损失与偏置损失的和，每个损失都有相应的权重

$L_{det} = L_k + \lambda_{size}L_{size} + \lambda_{off}L_{off}$

推理

2D检测

找到关键点：
在推理的时候，我们分别提取热力图上每个类别的峰值点。如何得到这些峰值点呢？做法是将热力图上的所有响应点与其连接的8个临近点进行比较，如果该点响应值大于或等于其八个临近点值则保留，最后我们保留所有满足之前要求的前100个峰值点

产生bbox： $(\delta \hat x_i,\delta \hat y_i)$ 为偏移预测结果， $(\hat w_i, \hat h_i)$ 为宽高预测结果
$(\hat x_i + \delta \hat x_i - \hat w_i/2, \hat y_i + \delta \hat y_i - \hat h_i/2,\\ \hat x_i + \delta \hat x_i + \hat w_i/2, \hat y_i + \delta \hat y_i + \hat h_i/2)$

3D检测：

每个中心点需要3个附加信息:depth, 3D dimension， orientation。我们为每个信息分别添加head.

depth:对于每个中心点，深度值depth是一个维度的, 然后depth很难直接回归, 在特征点估计网络上添加了一个深度计算通道 $\hat D \in [0,1]^{\frac{W}{R}\times \frac{H}{R}}$ ，该通道使用了两个卷积层，然后做ReLU 。输出为 $d=1/ \sigma (\hat d)-1$ ,$ \sigma$为sigmoid函数，我们用L1 loss来训练深度估计器。

3D维度:目标的3D维度是三个标量值。我们直接回归出它们（长宽高）的绝对值，单位为米，用的是一个独立的head,和L1 loss

方向：方向默认是单标量的值，然而其也很难回归。用两个bins来呈现方向，且i做n-bin回归。特别地，方向用8个标量值来编码的形式，每个bin有4个值。对于一个bin,两个值用作softmax分类，其余两个值回归到在每个bin中的角度。

人体姿态估计

设人体关键点为 $k$

通过中心点，回归出 $k$ 个关节点的偏移 $\hat J \in R^{\frac{W}{R} \times \frac{H}{R} \times k \times 2}$ ,得到关节点 $l_j = (\hat x, \hat y)+ \hat J_{\hat x \hat y j} \ for j \in 1...k$ 用到了L1 loss,我们通过给loss添加mask方式来无视那些不可见的关键点（关节点）。此处参照了slow-RCNN。
估计 $k$ 个人体关节点热力图,检测出所有人体关键点(热力图上值小于0.1的直接略去)。使用focal loss和像素偏移量。
分配关节点到人，将第一步的中心偏移 $\hat J$ 作为一个grouping的线索，来为每个关键点（关节点）分配其最近的人,回归得到的位置 $l_j$ 与最近的检测关节点进行分配 $arg\,\min_{l \in L_j }(l-l_j)^2$ ,只对检测到的目标框中的关节点进行关联。

backbone

我们实验了4个结构：ResNet-18, ResNet-101, DLA-34， Hourglass-104. 我们用deformable卷积层来更改ResNets和DLA-34，按照原样使用Hourglass 网络

CenterNet论文学习解读

Resnet-18 with up-convolutional layers : 28.1% coco and 142 FPS

Xiao et al. [55]等人对标准的ResNet做了3个up-convolutional网络来得到更高的分辨率输出（最终stride为4）。为了节省计算量，我们改变这3个up-convolutional的输出通道数分别为256,128,64。up-convolutional核初始为双线性插值。

DLA-34 : 37.4% COCOAP and 52 FPS

即Deep Layer Aggregation (DLA)，是带多级跳跃连接的图像分类网络，我们采用全卷积上采样版的DLA，用deformable卷积来跳跃连接低层和输出层；将原来上采样层的卷积都替换成3x3的deformable卷积。在每个输出head前加了一个3x3x256的卷积，然后做1x1卷积得到期望输出。

Hourglass-104 : 45.1% COCOAP and 1.4 FPS

堆叠的Hourglass网络，通过两个连续的hourglass 模块对输入进行了4倍的下采样，每个hourglass 模块是个对称的5层下和上卷积网络，且带有skip连接。该网络较大，但通常会生成最好的关键点估计。

CenterNet论文学习解读
(a):Hourglass

(b):使用反卷积的ResNet

(c ):DLA-34

(d):DLA-34，底层添加了更多的跳转连接，并对每个卷积层替换为可变形卷积层的上采样阶段

代码解读

未完待续…

文章目录

资源

原理

简介

相关研究

使用anchor的目标检测

优势

使用关键点的目标检测

优势

单目3D目标检测

优势

网络结构

预备知识