网络结构
这是本篇论文的结构图,应该是本论文工作的第二部分工作(第一部分是一个SFN单人脸的网络),该部分是一个多人脸的网络结构MFN。
这是一种端到端的联合人脸检测和面部重定向的网络,单元模块是由fire module和squeeze and excitation 组成的,这两种网络设计是用于帮助应用具有实时性。多尺度的分支用的是步长为2的FM单元,经过全连接层输出姿势、身份权重、表情权重,然后用3DMM去生成每个人脸的3D网格。可以看到姿势只通过最后的全局信息学习,而表情需要多层表达。
- FM结构图:
fire module的定义是: 压缩的卷积层(1*1的卷积核)、传送到具有1*1和3*3卷积核的混合扩展层。
- SE网络结构图:
SENet的核心思想在于通过网络根据loss去学习特征权重,使得有效的feature map权重大,无效或效果小的feature map权重小的方式训练模型达到更好的结果。
介绍
面部重定向包括人脸的捕获并把获取的人脸转换成另外的3D特征。在2D人脸对齐,3D人脸重建中, 通过卷积神经网络从2D面部图像学习3DMM参数是一种普遍的方式。 本文提出了一种端到端的网络来对多个人脸联合预测检测框和3DMM参数。
本文的工作主要分成两个部分。
首先,本文设计了一种新的多任务学习框架来学习从裁剪好的具有单个人脸的图片中解耦3DMM参数。称之为SFN(single face network)。
然后,利用训练好的单个人脸模型去生成多个人脸的3DMM参数ground truth,再去训练另一个网络(MFN),该网络可以对多个人脸执行联合人脸检测及表情的重定向。
现有的多人脸图片只给人脸的bbox提供ground truth,但是3DMM参数没有标注信息,所以本文用第一阶段的SFN为3DMM 参数生成弱标注的ground truth去训练MFN这个网络。3DMM 参数主要有四种:身份参数、表情参数、姿势参数、尺度参数。
方法
第一部分是3DMM,人脸的3D网格可以用多线性的3DMM来表示。
面部张量是由facewarehouse提供作为3DMM,其中v代表平均中性面,bid是身份,bexp是表情。最初的v属于11510×3,bid/bexp范围是50、47,但是为了减少计算的复杂度,我们手动标注人脸的68个关键点,把v减小到204,其他不变。论文还给出了身份权重、表情权重、3D旋转矩阵、3D转移参数、焦距f的范围,并用弱透视投影得到2D关键点plm,公式如下:
,
其中。
第二部分是,多种表达解耦。
表情学习和姿势学习不一样,姿势学习可能只需要全局信息,但是表情学习需要细粒度的信息。
如眨单个眼,咧嘴笑、大笑等需要不同的表达来区分不同表情。 另一点,给定2D定位,存在多种3DMM参数的结合形式可以最小化2D定位损失。这种模糊性可能给学习带来挑战。如图2可以转动头部来减小2D图像的定位损失并且通过身份系数来适应左下巴的这种情况,即使没有左下巴系数。
本文还增加了正则化,通过随机旋转、转变角度来增强图像,如图3所示。
接下来作者分别给出了单人脸网络和多人脸网络的损失函数表达式:
单人脸网络的
多人脸网络的
式中τ表示的是关于epoch的衰减参数,在所有试验中令τ=10/epoch;
(4)式是多脸检测和重定向的损失,把每个输入的图片分成9*9的网格,为每个网格cell中的bbox预测4 + 1 + (50 + 46 + 4 + 3 + 1) =109长度的向量。其中4表示的是人脸bbox的中心点坐标及长宽,1表示cell中存在人脸的置信度,剩下的表示每个cell中人脸的3DMM参数,我们仍然用5个anchor 作为bbox先验的方法。最后的损失函数是经过所有网格和anchor的等式3的总结。其中1ijk表示的是cell j中第k个bbox中是否有人脸。
Experimental
该表给出的是本文在两种网络上用到的数据集,包括图片和视频及人脸的个数的统计。
该表 是本文的网络模型的平均归一化误差和精度的比较。
这个图是在 AFLW2000-3D数据集上的人脸对齐的结果,第一列是ground truth,第二列是论文【5】的结果,3和4列是本文的两种网络的结果。
[5] A. Bulat and G. Tzimiropoulos. How far are we from solving the 2D & 3D face alignment problem(and a dataset of 230,000 3D facial landmarks). (ICCV),2017.
该表也是在AFLW2000-3D这个数据集上,比较本文的方法和其他方法在不同角度下的平均归一化误差,这个角度是基于下巴的角度来划分的。
该表是本文的方法和当前一些比较好的方法在 视频数据 上的人脸跟踪方法的比较;
上面的图是在两种数据集上生成人脸检测框及3D网格的展示结果,前三列是AFW数据集的,后三列是WIDER的。
该图 是重定向的结果,从人脸转化成3D特征。
Conclusion
本文提出了一种轻量级的多任务学习网络来联合进行人脸的检测和面部表情的重定向,应用在移动设备上具有实时性。
通过训练单人脸的图片生成弱监督的ground truth,解决多人脸的3DMM训练数据的缺乏问题。