2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

使用了深度学习方法，提出了filter pairing neural network(FPNN)
- 可以端到端联合处理对齐、光照与几何变化、遮挡、背景混杂的问题
- 不再需要手工提取特征，让网络从数据中来自动学习re-ID所需要的最优的特征，对于不同的摄像机视角，使用了two paired filters来编码光照变化
- 能够建模混合的复杂变化
一些训练网络的策略来应对检测算法造成的不对齐、过拟合、数据集中正负样本对不平衡问题
- dropout
- data augmengtation
- data balancing
- bootstrapping
建立了一个大规模的re-ID数据集-CUHK03，如下图：
- 13164张图像对应于1360个人
- 同时提供自动检测以及人工裁剪的行人框，可以来评估检测算法带来的不对齐问题，更加接近实际应用

第一层：convolutional and max-pooling layer
- 输入为：两个在不同摄像机下图的图像对 $I$ 与 $J$ `
- 卷积层：对光照变化建模，使用了两种不同的卷积核 $(W_k, V_k)$ 分别对两张图像进行操作，定义卷积函数如下： $f, g:\mathbb{R}^{H_{im} \times W_{im} \times 3} \to \mathbb{R}^{H_0 \times W_0 \times K_1}$
  $f^k_{ij} = \sigma((W_k * I)_{ij} + b^I_k) \\ g^k_{ij} = \sigma((V_k * J)_{ij} + b^J_k)$
根据本文的意思好像使用了两对不同的卷积核
- maxpooling：使卷积得到的特征对local misalignment更加鲁棒，输出得到 $H_1 \times W_1 \times K_1$ feature map.

第二层：patch matching layer：匹配不同视角下局部块的卷积核响应
- 将第一层的输出划分成M个水平条，每个水平条有 $W_1$ 个patches，相同的patch进行匹配
- 该层的输出具有 $K_1MW_1 \times W_1$ 个patch displacement matrices：
  $S^k_{(i,j)(i^\prime,j^\prime)} = f^k_{ij}g^k_{i^\prime,j^\prime}$
位移矩阵用来编码不同特征下的块匹配空间模式：当 $S^k_{(i,j)(i^\prime,j^\prime)}$ 具有较高值时，patches $(i, j)$ 与 $(i^\prime,j^\prime)$ 同时对filter pair $(W_k, V_k)$ 编码的特定特征有较高的响应
下图感觉左右两个人的框应该是个 $W_1 \times W_1$ 的矩阵，对应元素乘积后得到了中间图，因为有两对不同的卷积核，所以有两个patch displacement matrices

第三层:maxout-grouping layer:提高patch matchting的鲁棒性
- 把 $K_1$ 个channel划分为T组，每组中只有最大的**值传到下一层。这样每一个特征被多个冗余的通道所表示
- 在反向传播过程中，只有有最大响应的filter pair通过梯度得到更新，这样使在同一个组的filter pair竞争梯度，最终只有一个filter有对训练样本的最大响应
- 通过上面的方法图像块通过学习到的filter pairs将得到稀疏响应：sparsity is a property to eliminate noise and redundancy.
- 具体过程如下图：

第四层:another convolution and max-pooling layer：输入为 $MTW_1 \times W_1$ patch displacement matrices，输出为 $MW_2 \times W_2 \times K_2$ displacement matrices of body parts on a larger scale
卷积核可以学习捕捉local pattern of part displacements

第五层：fully connected layer
- 全局的几何变化是不同部分位移的结合，它们的分布是多模态的
- 由第四层得到的输出可以看做各种可能的part displacement，通过fc层的组合来表示全局的几何变化，以达到对混合的全局几何变化进行建模

第六层：softmax layer：由第五层输出的global geometric transform来判断输入的两张图片是否为同一个人：
$p(y=i|\mathbf{a_0},\mathbf{a_1},b_0,b_1,\mathbf{x}) = \frac{e^{(\mathbf{a_i}\cdot\mathbf x + b_i)}}{\sum_i{e^{(\mathbf a_i \cdot \mathbf x + b_i)}}}$

$cost = - \sum_n^H{y_nlog(p(y=1|\Phi,(\mathbf I_n, \mathbf J_n))) + (1 - y_n)log(1-p(y=1|\Phi,(\mathbf I_n, \mathbf J_n)))}$

当网络稳定后，不断选择hard negative samples：负样本对太多了，全部训练十分耗时，选择前一个epoch中hard simple来更新网络，这样容易产生较大的loss，对网络有较大的更新
文中公式：
$s_0 = 1 - p(x\ is\ a\ matched\ pair|\Phi_k), \\s_k = \frac{1-p(x\ is\ a\ matched pair|\Phi_k) + s_{k-1}}{2}$
公式的目的就是每次选择把负样本对预测为正样本得分最高的（即hard negative sample），随着训练的进行，hard negative sample得分也会变低，所以 $s_k$ 也在逐渐增加