《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

Abstract

1.目标是对面部属性进行更精确地识别

2.借助GANs生成的abstraction image进行识别

3.构建双路径识别网络（dual-path）分别对真实图片和抽象图片进行特征集成

4.一般来说，抽象图片能更好的与真实图片互补（complementary）

5.抽象图片可用来对局部器官或特征进行定位

Introduction

1.Facial attribute recognition的用途及历史。

2.难点：背景噪音和动态背景变换；部分特征与其他的特征无关，如是否佩戴帽子可能与头发特征相关，但与嘴唇识别无关

3.过往切割出局部信息的方法通过采用bbox或者语义分割，各有各的坏处，前者无法切割干净，后者可能丢失纹理细节信息。因此，激发出本文的实现手段：生成抽象图片，既去掉了背景的干扰，又保证了局部特征信息。抽象图片的生成是受局部特征分割的启发而来，关键的不同点是，抽象图片的生成算法以尽可能多地保留图片原始图片的信息为原则（使用GAN）。

4.同时将抽象图片和真实图片送往两个子网络，分别抽取特征后进行合成（concatenated），最终进行属性的识别。

5.Facial abstraction net 是基于pix2pixHD模型构建的。

《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

文章主要贡献即提供了一个双路径网络进行人脸属性的识别，并用GAN生成与原始图片成对的抽象图片（包含了局部位置信息和纹理信息），借助于抽象图片在识别率上有较大提升。

Related Work

面部属性识别

　　总体来说，分为两种：局部识别和全局识别（part-based and holistic approaches）。

　　局部识别：[Kumar et al., 2009] 采用基于手工预定义特征的方式利用svm来对面部属性进行识别，[Zhang et al., 2014] 使用poselet+CNN来对局部特征进行抽取识别

　　全局识别：多任务识别模型 [Liu et al., 2015b; Rudd et al., 2016; Lu et al., 2017;Han et al., 2017]，[Ding et al., 2017]采用弱监督信息来识别属性

[Kalayeh et al., 2017]采用语义分割的方式进行属性识别，本文与之不一样的点在于：前者使用decoder-encoder架构来做语义分割，后者使用GAN来生成抽象图片；此外，前者分割出来的语义图片是作为mask来激活属性，后者的抽象图片是直接参与到属性预测的训练中去

Methodology

基本结构如图所示，最终两个子网络的特征做了concat后经过了一个sigmoid cross entropy层。

问题定义

对于包含N张图片M个属性的训练集《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记来说，I表示样本，a表示标签名，L表示标签，则第i张图片的第j个属性或。给定一张未标注图片，则需要学习一个映射关系来预测，对于多个属性来说，则有《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

基本属性预测网络

《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

抽象图片属性预测网络（Facial Abstraction Network）

抽象图片属性预测网络致力于从原始图片中合成抽象图片，采用GAN架构，其中G使用pix2pixHD，pix2pixHD用来基于segmentation image生成真实图片，在本例中，反其道而行之，基于真实图片生成抽象图片。训练数据是一对图片(ri, ai),则生成对抗loss为：

《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

pix2pixHD使用了3个不同层级的D处理不同scale的图片，则GAN的目标函数化为

《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

Training Process

由于成对出现样本组（真实图片，抽象图片）具备不同的visual appearance，因此两个子网络并不能共享权值，文中介绍了两个网络的不同实现细节。

Experiment

数据集采用CelebA和LFWA，都具备相同的40个标签，评测标准采用：

（1）40个属性的mean accuracy (acc)

（2）针对样本不均衡的问题（如对于CelebA来说，判定全部图片为秃头，将取得97.88%的准确率），增加了一种基于lable的测量标准balanced-accuracy和3种基于instance的测量标准precision (prec), recall (rec) and F1-score (F1).

《Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition》论文阅读笔记

后者加入了正样本数量Pi和负样本数量Ni的考量

对于Facial Abstraction Networks（GANs），使用了Helen数据集进行训练，该数据集对背景，面部，双眼，双眉，鼻子，上下唇，头发进行了标注，同时使用[Liu et al., 2015a]来生成对应的ground truth abstraction images，用[Wang et al., 2017a]来训练抽象图片GANs网络的生成。

在实验对比中，分别与FaceTracer [Kumar et al., 2008]，PANDA [Zhang et al., 2014]，LNets+ANet [Liu et al.,2015b]，Off-the-Shelf CNN[Zhong et al., 2016]，Walk and Learn[Wang et al.,2016]，Moon [Rudd et al., 2016] learns，SOMP[Lu et al., 2017]，MCNN-AUX [Hand and Chellappa, 2017]，PaW [Ding et al., 2017]，[Kalayeh et al., 2017]，ResNet18 + SVM，ResNet50 + SVM

[Kumar et al., 2009] Neeraj Kumar, Alexander C Berg, Peter
N Belhumeur, and Shree K Nayar. Attribute and simile
classifiers for face verification. In ICCV, pages 365–372.
IEEE, 2009.

[Zhang et al., 2014] Ning Zhang, Manohar Paluri,
Marc’Aurelio Ranzato, Trevor Darrell, and Lubomir
Bourdev. Panda: Pose aligned networks for deep attribute
modeling. In CVPR, 2014.

[Liu et al., 2015b] Ziwei Liu, Ping Luo, Xiaogang Wang,
and Xiaoou Tang. Deep learning face attributes in the wild.
In ICCV, 2015.

[Rudd et al., 2016] Ethan M Rudd, Manuel G¨unther, and
Terrance E Boult. Moon: A mixed objective optimization
network for the recognition of facial attributes. In ECCV.
Springer, 2016.

[Lu et al., 2017] Yongxi Lu, Abhishek Kumar, Shuangfei
Zhai, Yu Cheng, Tara Javidi, and Rogerio Feris. Fullyadaptive
feature sharing in multi-task networks with applications
in person attribute classification. In CVPR, 2017.

[Han et al., 2017] Hu Han, Anil K Jain, Shiguang Shan, and
Xilin Chen. Heterogeneous face attribute estimation: A
deep multi-task learning approach. TPAMI, 2017.

[Ding et al., 2017] Hui Ding, Hao Zhou, Shaohua Kevin
Zhou, and Rama Chellappa. A deep cascade network for
unaligned face attribute classification. In AAAI, 2017.

[Liu et al., 2015a] Sifei Liu, Jimei Yang, Chang Huang, and
Ming-Hsuan Yang. Multi-objective convolutional learning
for face labeling. In CVPR, June 2015.

[Wang et al., 2017a] Ting-Chun Wang, Ming-Yu Liu, Jun-
Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro.
High-resolution image synthesis and semantic manipulation
with conditional gans. arXiv:1711.11585, 2017.