CenterNet论文链接
一.背景
1.anchor-base缺点
(1).anchor的设置对结果影响很大,不同项目这些超参都需要根据经验来确定,难度较大.
(2).anchor太过密集,其中很多是负样本,引入了不平衡.
(3).anchor的计算涉及IOU增加计算复杂度.
2.应用场景
(1).目标检测
(2).3D定位
(3).人体姿态估计
二.网络介绍
输出分支主要由三部分组成
(1)heatmap,大小为(W/4,H/4,C),输出不同类别的物体中心点
(2)offset,大小为(W/4,H/4,2)输出中心点偏移
(3)Height&Weight大小为(W/4,H/4,2),输出中心点检测框的宽高
1.思想
通过预测出目标的heatmap,找出heatmap的峰值就是目标的中心点.
2.与anchor based区别
(1).不需要阈值区分前后景;
(2).一个目标只需要一个heatmap,避免使用nms,heatmap的峰值就是目标中心点;
(3).下采样步长小只是4,减少了需要多个重复框.
3.heatmap和相应focal loss(分类)
heatmap就是目标的热力图,通道数就是类别数,loss采用focal loss,其按照高斯分布来进行分配,因为除了中心点的heatmap其实没必要完全贡献loss.
Ŷxyc:每个通道预测的heatmap,(x,y)处的值.
Yxyc:每个通道的gt heatmap,(x,y)处的值.
α,β: 超参用来控制loss.
N:图片所有的关键点.
4.offset loss(L1)
用offests来矫正下采样造成的检测框偏移,从而让检测框更加紧凑.
p是key point,R是下采样倍数,这里从预测图的heatmap恢复到原图就会有精度损失,严重影响小物体,所以就通过一个网络分支去学习这种误差.
5.回归loss(L1)
采用L1 loss回归宽高
6.总loss
loss由三部分组成:heatmap分类loss,回归宽高loss,回归偏移loss.
输出类别数+4(宽高,中心点偏移).
7.推理
在heatmap上通过8近邻取得前100个峰值,在对8近邻的点3*3 maxpooling获得中心点,在与预测的宽高,偏移量组合就得出检测框.
:预测的中心点
:预测的中心点偏移量
:预测宽高