Deep Covariance Descriptors for Facial Expression Recognition

N. Otberdout, A. Kacem, M. Daoudi, L. Ballihi, and S. Berretti, “Deep
covariance descriptors for facial expression recognition,” in BMVC,
2018

Abstract
本文利用协方差矩阵对深度卷积神经网络(DCNN)特征进行编码，用于人脸表情识别。协方差矩阵的空间几何是对称正定矩阵的空间几何。通过在SPD流形上使用高斯核对人脸表情进行分类，证明了基于DCNN特征计算的协方差描述符比基于完全连通层和softmax的标准分类更有效。通过在Oulu-CASIA和SFEW数据集上的大量实验，利用VGG-face和ExpNet体系结构对该方法进行改进，表明该方法在人脸表情识别方面达到了目前的水平

1 Introduction
人脸表情的自动分析在计算机视觉研究中具有广泛的应用前景，从人机交互到医学和心理学的研究，一直是计算机视觉研究的热点。与其他应用程序类似，多年来，面部表情分析一直是通过手工设计的低级描述符来处理的，这些描述符要么是几何的(例如地标之间的距离)，要么是基于外观的(例如LBP、SIFT、HOG等)，目的是提取合适的面部表征。更高阶的关系，如协方差描述符，也计算在原始数据或低阶描述符上。然后，标准的机器学习工具，如支持向量机，被用来对表情进行分类。现在，解决这个问题的方法已经随着深度卷积神经网络(DCNNs)发生了根本性的变化。这里的想法是让网络在训练阶段从大量数据中学习最佳特性。**然而，DCNNs的一个缺点是它们没有考虑人脸内部的空间关系。为了克服这一问题，我们提出了利用全局和局部提取的人脸不同区域的网络特征。**这将为每个区域生成一组DCNN特性。问题是如何用一种紧凑的、有区别的表示方式对它们进行编码，从而获得比经典softmax在全局范围内实现的分类更有效的分类。本文提出将人脸DCNN特征编码到协方差矩阵中。这些矩阵在许多计算机视觉任务中表现得比一阶特征更好[22,23]。我们从静态图像或静态峰值帧集合(即，即表情达到最大值的帧)。在此过程中，我们利用协方差矩阵的空间几何作为对称正定流形上的点。此外，我们在该流形上使用一个有效的正定高斯RBF核训练SVM分类器进行表情分类。使用不同的网络架构实现我们的方法，即，VGG-face[21]和ExpNet[9]，通过一系列深入的实验，我们发现这些矩阵的分类性能优于经典的softmax。

总的来说，该解决方案允许我们结合几何和外观特征，在考虑人脸内部空间关系的同时，能够有效地描述不同空间层次的面部表情。图1显示了提议的解决方案的概述。综上所述，我们工作的主要贡献包括:(1)利用协方差矩阵对人脸的DCNN特征进行编码;(ii)用局部协方差描述符编码局部DCNN特征;(三)利用SPD流形上的高斯核对人脸表情进行分类;(iv)在两种不同架构下进行广泛的实验评估，并在两个公开可用的数据集上，将我们的结果与最先进的方法进行比较。
Deep Covariance Descriptors for Facial Expression Recognition
2 Related work
本文提出的方法主要涉及到人脸表情识别的研究，以及结合协方差描述符的DCNNs研究。因此，我们首先总结了使用DCNN进行面部表情的相关工作，然后我们展示了一些最近使用协方差描述符与DCNN相结合的工作。
**DCNN for Facial Expression Recognition:**基于DCNN模型在人脸分析任务中的成功，多篇论文提出将其用于静态和动态表情识别[12,18,19,24]。然而，DCNNs令人印象深刻的性能背后的主要原因是大规模训练数据集的可用性。事实上，在人脸表情识别中，数据集是非常小的，这主要是由于训练时难以生成正确注释的图像。为了克服这一问题，Ding等人[9]提出了FaceNet2ExpNet，其中正则化函数帮助使用人脸信息训练静态图像的人脸表情分类网络。利用DCNN对静止图像进行人脸表情识别[18,19,27]。这些方法在网络结构上都采用了相似的策略:使用多个卷积层和池化层进行特征提取;全连接层和softmax层用于分类。在[20]中，作者提出了一种利用训练好的DCNN最后一卷积层提取的深层特征进行动态人脸表情识别的方法。他们利用高斯混合模型(GMM)和Fisher向量对视频提取的特征集进行编码，得到视频的单个向量表示形式，并将其输入SVM分类器进行预测表达式
**DCNN and Covariance Descriptors:**Tuzel等人首先引入协方差特征来进行纹理匹配和分类。Bhattacharya等人构建了协方差矩阵，该矩阵捕获了从视频中提取的低层运动和外观特征的联合统计信息。Dong等人构建了一个深度神经网络，将高维SPD矩阵嵌入到一个更具辨识性的低维SPD流形中。Wang等人在从图像集进行人脸识别的背景下，提出了一种判别协方差面向表示学习(Discriminative Covariance oriented Representation Learning, DCRL)框架来学习更好的图像表示，该框架能够很好地匹配后续的图像集建模和分类。该框架构造了一个特征学习网络(如CNN)，将人脸图像投射到目标表示空间中。该网络的训练目标是最大限度地提高目标空间中计算的协方差矩阵集的判别能力。在Liu等人提出的动态人脸表情识别方法中，从每个视频片段中提取深度和手工特征，构建三种类型的图像模型，即，协方差矩阵，线性子空间，高斯分布。然后，分别使用不同的黎曼核和组合黎曼核进行分类。

据我们所知，与现有文献相比，我们的工作是第一个将协方差描述符与DCNN结合用于静态表情识别的工作。
3 DCNN features
Deep Covariance Descriptors for Facial Expression Recognition
由于DCNNs在自动提取与当前问题相关的非线性特征方面的成功，我们选择了该技术，以便将面部表情编码到特征图(FMs)中。然后在这些FMs上计算协方差描述符，并考虑全局人脸表示。我们还提取了输入人脸图像中眼睛、嘴巴和脸颊周围的四个区域(左、右)。通过将这些区域映射到提取的深度FMs上，我们能够提取出这些FMs中的局部区域，从而带来更准确的面部表情信息。还计算了每个局部区域的局部协方差描述符。

我们的方法的第一步是提取非线性特征，这些特征可以很好地编码输入人脸图像中的面部表情。在本工作中，我们使用了两个DCNN模型，即VGG-face[21]和ExpNet[9]。
3.1 Global DCNN features
VGG-Face是一种常用于人脸分析任务的DCNN模型。它由16个图层组成，训练2.6M的人脸图像，这些图像来自2.6K个人，用于野外人脸识别。该模型也成功应用于表情识别[9]。然而，该模型是为人脸识别而训练的，因此它也被期望编码关于应该过滤掉的人的身份信息，以便捕捉独立于人的面部表情。这可能会使微调后的表情模型识别能力下降，尤其是在处理小数据集时，这在人脸表情识别中是很常见的。为了解决这个问题，Ding等人提出了ExpNet，这是一个更小的网络，只有五个卷积层和一个完全连接的层。该模型的训练采用VGG-face模型进行规范化。

继Ding等人的[9]之后，我们首先通过最小化交叉熵损失对表情数据集上的VGG-face网络进行微调。然后使用这个微调的模型对ExpNet模型进行规范化。由于我们对人脸特征提取很感兴趣，我们只考虑了ExpNet模型最后一层卷积层的FMs。
Deep Covariance Descriptors for Facial Expression Recognition
3.2 Local DCNN features
除了使用全局特征图Φ（f）之外，我们还关注从该全局特征图中提取的与面部表情分析相关的特定区域。为此，我们首先使用[2]中提出的方法检测输入面部图像上的一组关键点。然后用这些点在眼睛、嘴巴和双颊周围构建四个区域。通过定义输入人脸图像与其对应的FMs之间的像素映射，将检测到的区域从输入人脸图像映射到全局FMs
Deep Covariance Descriptors for Facial Expression Recognition

4 DCNN based covariance descriptors

4.1 RBF Kernels for DCNN covariance descriptors classification
5 Experimental results