人脸识别相关论文阅读(2)

DeepID1 ：Deep Learning Face Representation from Predicting 10,000 Classes

输入: 图片的一个patch
输出: 10000身份类中的一个类别

主要思想：对一个训练样本来进行判断10000个类中的哪一个，训练一个softmax多元分类器，而不是一个二元分类器，提升了训练难度，利用神经网络的强学习能力，同时学习得到的特征具有一定的泛化能力，DeepID层只有160维，远远小于其分类类别，这样会形成压缩之后的密集特征。

为什么是10000的分类器，不用二分类？为了学习到更有区分能力和简洁的特征。为了证明这点，作者将训练的softmax输出层由136增加到4349个，然后观察分类能力以及之后的人脸识别能力。然后发现，准确率几乎都是随着识别种类的翻倍而线性增长的，效果提升很明显。

为什么DeepID神经元数量固定为160个，比分类输出差那么多？作者试图把4349个输出作为特征，后续的测试惨不忍睹。我理解的是这样做特征太稀疏，特征之间的相关性太强。

trick：

输入图像的处理。拿到一张图像，选取60个patch分别训练60个模型，(60个patch怎么来的：先裁剪10个regions，基础上分别选取3个scales，基础上再分别选取两种颜色(RGB和灰度)。
提取DeepID那一层的特征之后再做水平翻转。这样特征总维数就是160260。

为什么要multi-scale? 我理解的是图像的尺度大能一览图像的全貌，小可以关注一些细节信息，这一点可能对学习有帮助。
人脸识别相关论文阅读(2)

如图，上部分为10个regions的示例，下部分为3cales的示例。

face representation 使用自己设计的ConvNet结构，提取high-level特征

为什么high-level比low-level好？？？？？？？？？？

face verification 使用 Joint Bayesian 或者 Neural Network，证明前者更好。

① face detection：学习5个关键点(眼睛、鼻尖、两个嘴角)。

② face alignment：两个眼睛和两个嘴角的中点，做相似变换（保持形状不变，大小和方向可变），全局对齐面部。

③ face representation：
人脸识别相关论文阅读(2)

输入：39✖️31✖️k的图（ k为1时为灰度图像，k为3时为RGB图像）
C1：卷积核为4✖️4✖️k，20个，特征图为36✖️28✖️20
M2：池化窗口为2✖️2，特征图为18✖️14✖️20
C3：卷积核为3✖️3✖️20，40个，特征图为16✖️12✖️40
M4：池化窗口为2✖️2，特征图为8✖️6✖️40
C5：卷积核为3✖️3✖️40，60个，特征图为6✖️4✖️60
M6：池化窗口为2✖️2，特征图为3✖️2✖️60
C7：卷积核为2✖️2✖️60，80个，特征图为2✖️1✖️80
F8(DeepID): 可以形成高度紧凑和预测性的一些特征。

拉平为160维=10regions✖️3scales✖️2（RGB and Gray）✖️2 (翻转)

值得注意的是CNN最后一层DeepID层不仅和C7直接相连，也和M6相连，作者将之称为Multi-scale ConvNets。为什么连接两层，是因为：C57神经元数量少，携带的信息比较少，使用M6可以减少信息损失。这一步的具体做法是：先将C7和M6这两层拉平(flatten)，然后再将其和DeepID层全连接，经过ReLU**函数后的输出就是DeepID特征。
人脸识别相关论文阅读(2)
上标1表示M6，上标2表示C7