人脸识别论文阅读(4)

1.人脸识别的瓶颈在于噪声

概要：

在不断增长的数据集规模和丰富的网络结构及损失函数的大背景下，仍然对label的噪音source和consequence的理解有限，对此论文做出了以下贡献：

在流行的大规模数据集 MegaFace 和 MS-Celeb1M 条件下，得到手动清洗的子集，分别是32%和20%，已经可以达到相当的性能；（？？？具体来讲）
清洗前，分析了标签噪音的属性/特性；
证明了使用清洗后的子集，或者是使用噪声样本，都需要更多的样本才能达到相同的精度；
研究不同类型噪声的关联，即label flip(错误地被给了数据集其他的身份)和outlier(错误的身份而且还不在数据集内)；
研究提高数据清洁度的方法，包括数据标记策略对注释准确性的影响

介绍

一般用来替代大量有标注数据的方法：

通过名字来查图像(不过只针对名人)，然后用自动或半自动方法清洗标签
收集社交网络共享的人脸图像，引入带约束的聚类

但是以上方法会带来标签的噪音，图1展示了这个情况：
人脸识别论文阅读(4)
每一行表示相同的身份，有的肉眼可以清洗，有的很难，MegaFace最后一行还展示了冗余的图像。

本文第一个目标是对source和consequence的理解，目的是设计更好的数据收集和清洗策略，于是提出了一些问题：

需要多少噪音样本才能达到相当于清洗数据的效果？
噪音和最终表现有什么关系？
最好的标注人脸身份的策略是什么？

本文第二个目标是自己收集一个干净的人脸识别数据集，目的是帮助训练更好的模型以及理解噪音和模型性能之间的关系。
这个数据集叫IMDb-Face，包含了59K的名人图像，1.7M大小，来源是电影截图和IMDb网站的海报。
由于source 的不同，图像在scale，pose，lighting 和 occlusion 呈现出不同的变化，论文先仔细清理了数据集（？？？），然后在label上注入噪音模拟损坏，观察到人脸识别的准确率迅速下降。做实验分析了不同标注方式的可靠性，发现标签准确性与时间相关，该发现有助于找到错误标签的source，然后设计更好的策略来平衡标注成本和标注准确性。