一、四个问题
1解决什么问题?
人脸的表请识别
2用了什么方法解决?
(1) 提出了一种基于图像帧及图像序列的表情识别架构,在性能相当的情况下,极大减少了卷积核个数,缓解了实验参数存储问题。
(2)收集了三个不同场景的数据集用于验证模型在多场景的性能。
(3)提了一种光照增强策略,能够减轻在结合不同数据集的数据上训练的过拟合。
3效果如何?
提出了一种新的CNN人脸表情识别体系结构,其性能优于目前最先进的方法。提出了一种基于图像帧及图像序列的表情识别架构.在两个标准数据集上验证提出的方法是优于当前最好的方法。
4还存在什么问题?
训练模型小,结果准确度有待提高
二、论文的方法
1.训练模型
首先根据IntraFace检测到的标志点对人脸区域进行裁剪,选取最上和最下,最左和最右的关键点进行裁剪,乘以作者给出的系数1.05确定裁剪大小后,以鼻子为中心点,将其大小resize成120*120,然后将96*96的中心区域作为卷积网络进行输入预测。
2.网络结构
模型由四个卷积和两个池化组成,然后是两个完全连接的层。使用ReLU作为每个卷积层的**函数。为了防止过拟合,在全连通层后还采用了dropout。
3.准确率
ck+数据集
Oulu-CASIA数据集
4.动态序列表情的流程
提出了一种帧到序列的方法,将所有训练图像序列归一化为固定长度9。对于一个视频流,将每一帧图像送进网络,得到T个预测概率序列,然后用GRU(Gated Recurrent Units)预测表情,最后接了一个softmax层。
5.少卷积核数量性能对比
为了克服硬件存储的限制,作者进一步减少了CNN结构中使用的卷积滤波器的数量。这个小版本的CNN模型在前两层卷积中只使用了16个滤波器,在最后两层卷积中只使用了32个滤波器。
6.增强方案:
从左到右依次为经过直方图归一化,线性映射和加权求和处理后的图片。
直接应用直方图均衡化可能会过度强调局部对比度,如图所示,当图像已经具有较大的全局对比度时,线性映射效果不佳。
该论文采用的方案为直方图均衡和线性映射(通过线性变换将最小和最大像素值映射到一个区间[0,1])相结合的方法。
λ是一个权重因子,它决定组合图像Iws的像素从直方图均衡图像Ihe和线性映射图像Ilm 中引用多少,作者在实现λ设置为0.5。
其中论文中有几个公式没有看太懂,补充几个论文中需要了解的知识的链接:
GRU网络的解释:https://blog.csdn.net/zhaojc1995/article/details/80572098
关于图像对比度:https://blog.csdn.net/u012590570/article/details/50346325