人脸检测模型RetinaFace论文学习笔记

原论文：《J. Deng, J Guo, Y Zhou, et al. RetinaFace: Single-stage Dense Face Localisation in the Wild[J]. arXiv:1905.00641v2》
最后面有参考代码的 Github 链接

论文的两个特点：

引入了人脸关键点信息；
引入了人脸的三维信息。

骨干网络：ResNet-152

1. 结构图如下：

人脸检测模型RetinaFace论文学习笔记

它使用了骨干网络中残差阶段 $C_2$ 、 $C_3$ 、 $C_4$ 以及 $C_5$ 的特征图；
在 $C_5$ 后使用步长为 2 的 $3\times3$ 卷积构建了 $C_6$ 。在训练时，这个卷积层用 Xavier 方法进行随机初始化；
由 $C_2$ 、 $C_3$ 、 $C_4$ 以及 $C_5$ 的特征图构建 特征金字塔 (Feature Pyramid)中的各层 $P_2$ 、 $P_3$ 、 $P_4$ 以及 $P_5$ ；
将 $C_6$ 作为 $P_6$ ；
在 $P_2$ 、 $P_3$ 、 $P_4$ 、 $P_5$ 以及 $P_6$ 上分别使用 上下文模块 (Context Module)；
每个上下文模块后面均跟一个多任务模块及相应的损失函数。

这里的 上下文模块 就是 SSH 模型中的检测器模块，或者 PyramidBox 模型中的 CPM 模块。
上下文模块 中所有 $3\times3$ 卷积层替换为可形变卷积网络(Deformable Convolution)

2. Anchor 的设置

Anchor 的宽高比为 1，特征金字塔中每层 Anchor 的尺寸与步长如下表所示。Anchor 一共 102300 个，其中有 75% 在 $P_2$ 上。

特征金字塔	步长	Anchor尺寸
$P_2(160\times160\times256)$	4	16、20.16、25.40
$P_3(80\times80\times256)$	8	32、40.32、50.80
$P_4(40\times40\times256)$	16	64、80.63、101.59
$P_5(20\times20\times256)$	32	128、161.26、203.19
$P_6(10\times10\times256)$	64	256、322.54、406.37

当 $IoU>0.5$ 时，将 anchor 匹配到 Ground-Truth 上；
当 $IoU<0.3$ 时，将 anchor 匹配到 Background 上；
使用分类的值对负样本 anchor 进行排序，仅使用第一个；
使用 OHEM 缓解正负样本的不平衡；
最终正负 anchor 样本比为 $1:3$ 。

3. 损失函数

人脸检测模型RetinaFace论文学习笔记
对训练的第 $i$ 个 anchor，待最小化的损失函数为：
$\begin{aligned}\\ L&=L_{cls}(p_i,p_i^*)+\lambda_1 p_i^*L_{box}(t_i,t_i^*)\\ &+\lambda_2 p_i^*L_{pts}(l_i,l_i^*)+\lambda_3 L_{pixel}\\ \end{aligned}$
其中，

$\lambda_1=0.25$ ， $\lambda_2=0.1$ ， $\lambda_3=0.01$ ；
$p_i^*$ 是 anchor 的正负标记，1 为正样本，0 为负样本；
$p_i$ 是 anchor 作为人脸的概率；
$L_{cls}$ 是人脸的二分类 softmax 损失函数；
$t_i^*=\{t_x^*,t_y^*,t_w^*,t_h^*\}_i$ 是与正样本 anchor 相关的 Ground-Truth 位置坐标；
$t_i=\{t_x,t_y,t_w,t_h\}_i$ 是模型预测的人脸框位置坐标；
$L_{box}$ 是人脸框回归的 $Smooth\ L_1$ 损失函数；
$l_i^*=\{l_{x_1}^*,l_{y_1}^*,...,l_{x_5}^*,l_{y_5}^*\}_i$ 是与正样本 anchor 相关的五个人脸关键点坐标；
$l_i=\{l_{x_1},l_{y_1},...,l_{x_5},l_{y_5}\}_i$ 是模型预测的五个人脸关键点坐标；
$L_{pts}$ 是人脸关键点回归的损失函数；
$L_{pixel}$ 是稠密回归损失函数(Dense Regression Loss)，用于控制模型对人脸 3 维信息的利用：
$L_{pixel}=\frac{1}{W*H}\sum_{i}^{W}\sum_{j}^{H}||\mathcal{R}(\mathcal{D}_{P_{ST}},P_{cam},P_{ill})_{i,j}-I_{i,j}^*||_1$

其中，

$W$ 与 $H$ 分别是 Anchor Crop $I_{i,j}^*$ 的宽与高；

$P_{cam}=\{x_c,y_c,z_c,x_c',y_c',z_c',f_c\}$ 是三维的摄像头参数，这里面的内容分别代表 摄像头位置 $\{x_c,y_c,z_c\}$ 、姿态 $\{x_c',y_c',z_c'\}$ 、焦距 $f_c$ ；

$P_{ill}=\{x_l,y_l,z_l,r_l,g_l,b_l,r_a,g_a,b_a\}$ 是三维的照明参数，这里面的内容分别代表 点光源位置 $\{x_l,y_l,z_l\}$ 、点光源色值 $\{r_l,g_l,b_l\}$ 、侧光色值 $\{r_a,g_a,b_a\}$ ；

$P_{ST}\in \mathcal{R}^{128}$ 是根据图片预测的人脸形状与纹理参数；

$\mathcal{D}_{P_{ST}}$ 是着色的网状结构(Coloured-Mesh)，它是由网状结构解码器(Mesh Decoder)对 $P_{ST}$ 解码得到的；

$\mathcal{R}(\mathcal{D}_{P_{ST}},P_{cam},P_{ill})$ 是 可微渲染器，负责将含有三维信息的 $\{\mathcal{D}_{P_{ST}},P_{cam},P_{ill}\}$ 映射为一个二维的图片。

论文里使用的 Mesh Decoder 是在论文《Dense 3d
face decoding over 2500fps: Joint texture and shape convolutional mesh decoders》中预训练得到的。

4、训练

使用带有冲量(momentatum) 0.9 与权重衰减(weight decay) 0.0005 的随机梯度下降法。

1. 结构图如下：

2. Anchor 的设置

3. 损失函数

4、训练

参考材料