Pose-Normalized Image Generation for Person Re-identification (note)

Pose-Normalized Image Generation for Person Re-identification

github: https://github.com/naiq/PN_GAN

在这项工作中，我们通过提出一种新的深度人物图像生成模型来处理缺少交叉视角配对训练数据，以及剧烈姿势变化难的这两个问题，以合成以姿势为条件的真实人物图像。该模型基于专门针对re-id中的姿态归一化而设计的生成对抗网络（GAN），因此被称为姿态归一化GAN（PN-GAN）。通过合成图像，我们可以学习一种没有姿态变化影响的新型深度重新识别特征。我们证明，这个特征本身很强大，并且与原始图像学习的特征相辅相成。重要的是，在转移学习设置下，我们表明，我们的模型很好地适用于任何新的数据集，而无需收集任何用于模型微调的训练数据。因此，该模型有可能使re-id模型真正具有可扩展性。

目的：无需担心姿势变化，该模型可以专注于学习身份敏感特征并应对其他协变量，如不同的照明条件和背景。

姿态归一化GAN（PNGAN）。给定任何人的图像和理想姿势作为输入，该模型将输出具有相同身份的合成图像，其中原始姿势替换为新姿势。

姿态估计。 图像生成过程以输入图像和一个factor为条件：由骨架姿态图像表示的期望姿态。 姿态估计是通过预训练的现成模型获得的。 更具体地说，部署了现成的姿态检测工具包 - OpenPose [4]，该工具包在不使用任何re-id基准数据的情况下进行了训练。 给定输入人员图像Ii，姿势估计器可以产生姿势图像IPi，其定位和检测18个解剖学关键点以及它们的连接。 在姿势图像中，肢体的方向用颜色编码（见图2，目标姿势）。 理论上，来自任何人物图像的任何姿态都可以用作控制另一个人生成的图像姿势的条件。 在这项工作中，我们专注于姿态归一化，所以我们坚持八个典型的姿势，如图4（a）所示，稍后会详细介绍。

3.3. Person re-id with Pose Normalization（important）

Pose-Normalized Image Generation for Person Re-identification (note)

如图2所示，我们训练两个re-id模型。使用训练集中的原始图像对一个模型进行训练，以在存在姿势变化的情况下提取身份不变特征。另一种是使用具有归一化姿势的合成图像使用我们的PN-GAN来计算没有姿态变化的重新识别特征。然后将它们融合为最终的特征表示。

姿势标准化。我们需要获得一套规范的姿势，这些姿势代表了监控摄像机拍摄的公众人物展示的典型视角和身体形态。为此，我们预测数据集中所有训练图像的姿态，然后将姿势分组为8个聚类。我们使用在ImageNet ILSVRC-2012数据集上预先训练好的VGG-19 [5]来提取每个姿态图像的特征，并且使用K-means算法将训练姿态图像聚类为规范姿势。然后将这些聚类的平均姿态图像用作规范姿势。 Market-1501 [61]获得的八个姿势如图4（a）所示。通过这些姿势，给定每个图像I，我们的生成器将通过用这些姿势替换原始姿势来合成八个图像。

测试阶段，当ResNet-50-A和ResNet-50-B在测试过程中被训练后，对于每个gallery图像，我们将其馈入ResNet-50-A以获得一个特征向量;并合成生成8个规范姿势的图像，将它们送入ResNet-50-B以获得8个无姿势特征。这可以离线完成。然后给出一个查询图像Iq，我们做同样的事情获得九个特征向量 Pose-Normalized Image Generation for Person Re-identification (note) 。由于Maxout和Max-pooling被广泛用于多视频re-id查询中，因此我们通过以元素最大化操作来融合九个特征向量来获得一个最终特征向量。然后，我们计算查询和图库图像的最终特征向量之间的欧几里得距离，并使用距离来排列图库图像。

Experiment

Pose-Normalized Image Generation for Person Re-identification (note)

Our model only uses the identification loss, so should be compared with Basel. + LSRO which uses the same ResNet-50 base network and the same loss.

在第二项研究中，我们比较了当特征与8个姿势合并时得到的结果与仅用一个姿势合并得到的结果，结果如表5所示。在mAP上Market-1501的结果从72:58降至69:60。这表明具有八个规范姿势是有益的 - 在一个特定姿势下生成的图像的质量可能较差;使用全部八个姿势因此降低了针对特定姿势生成的图像的质量的敏感度。

合成图像的例子。图5给出了一些合成图像姿势的例子。给定一个输入图像，我们的图像生成器可以在不同姿势下产生逼真的图像，同时保持与输入人物图像相似的视觉外观。我们发现：（1）尽管我们没有明确地使用属性来指导PN-GAN，但不同姿势的生成图像与原始图像具有大致相同的视觉属性。（2）如图5最后一行所示，我们的模型可以帮助缓解由遮挡造成的问题：一个穿着黄色衬衫和灰色长裤的男人被自行车挡住，而我们的图像生成器可以生成合成图像以保留他的钥匙属性，同时去除堵塞。

Pose-Normalized Image Generation for Person Re-identification (note)