1.人脸识别的瓶颈在于噪声
概要:
在不断增长的数据集规模和丰富的网络结构及损失函数的大背景下,仍然对label的噪音source和consequence的理解有限,对此论文做出了以下贡献:
- 在流行的大规模数据集 MegaFace 和 MS-Celeb1M 条件下,得到手动清洗的子集,分别是32%和20%,已经可以达到相当的性能;(???具体来讲)
- 清洗前,分析了标签噪音的属性/特性;
- 证明了使用清洗后的子集,或者是使用噪声样本,都需要更多的样本才能达到相同的精度;
- 研究不同类型噪声的关联,即label flip(错误地被给了数据集其他的身份)和outlier(错误的身份而且还不在数据集内);
- 研究提高数据清洁度的方法,包括数据标记策略对注释准确性的影响
介绍
一般用来替代大量有标注数据的方法:
- 通过名字来查图像(不过只针对名人),然后用自动或半自动方法清洗标签
- 收集社交网络共享的人脸图像,引入带约束的聚类
但是以上方法会带来标签的噪音,图1展示了这个情况:
每一行表示相同的身份,有的肉眼可以清洗,有的很难,MegaFace最后一行还展示了冗余的图像。
本文第一个目标是对source和consequence的理解,目的是设计更好的数据收集和清洗策略,于是提出了一些问题:
- 需要多少噪音样本才能达到相当于清洗数据的效果?
- 噪音和最终表现有什么关系?
- 最好的标注人脸身份的策略是什么?
本文第二个目标是自己收集一个干净的人脸识别数据集,目的是帮助训练更好的模型以及理解噪音和模型性能之间的关系。
这个数据集叫IMDb-Face,包含了59K的名人图像,1.7M大小,来源是电影截图和IMDb网站的海报。
由于source 的不同,图像在scale,pose,lighting 和 occlusion 呈现出不同的变化,论文先仔细清理了数据集(???),然后在label上注入噪音模拟损坏,观察到人脸识别的准确率迅速下降。做实验分析了不同标注方式的可靠性,发现标签准确性与时间相关,该发现有助于找到错误标签的source,然后设计更好的策略来平衡标注成本和标注准确性。