1.人脸识别的瓶颈在于噪声

概要:

在不断增长的数据集规模和丰富的网络结构及损失函数的大背景下,仍然对label的噪音source和consequence的理解有限,对此论文做出了以下贡献:

  1. 在流行的大规模数据集 MegaFace 和 MS-Celeb1M 条件下,得到手动清洗的子集,分别是32%和20%,已经可以达到相当的性能;(???具体来讲)
  2. 清洗前,分析了标签噪音的属性/特性;
  3. 证明了使用清洗后的子集,或者是使用噪声样本,都需要更多的样本才能达到相同的精度;
  4. 研究不同类型噪声的关联,即label flip(错误地被给了数据集其他的身份)和outlier(错误的身份而且还不在数据集内);
  5. 研究提高数据清洁度的方法,包括数据标记策略对注释准确性的影响

介绍

一般用来替代大量有标注数据的方法:

  • 通过名字来查图像(不过只针对名人),然后用自动或半自动方法清洗标签
  • 收集社交网络共享的人脸图像,引入带约束的聚类

但是以上方法会带来标签的噪音,图1展示了这个情况:
人脸识别 论文阅读(4)
每一行表示相同的身份,有的肉眼可以清洗,有的很难,MegaFace最后一行还展示了冗余的图像。

本文第一个目标是对source和consequence的理解,目的是设计更好的数据收集和清洗策略,于是提出了一些问题:

  • 需要多少噪音样本才能达到相当于清洗数据的效果?
  • 噪音和最终表现有什么关系?
  • 最好的标注人脸身份的策略是什么?

本文第二个目标是自己收集一个干净的人脸识别数据集,目的是帮助训练更好的模型以及理解噪音和模型性能之间的关系。
这个数据集叫IMDb-Face,包含了59K的名人图像,1.7M大小,来源是电影截图和IMDb网站的海报。
由于source 的不同,图像在scale,pose,lighting 和 occlusion 呈现出不同的变化,论文先仔细清理了数据集(???),然后在label上注入噪音模拟损坏,观察到人脸识别的准确率迅速下降。做实验分析了不同标注方式的可靠性,发现标签准确性与时间相关,该发现有助于找到错误标签的source,然后设计更好的策略来平衡标注成本和标注准确性。

相关文章: