Pedestrian Attribute Recognition via Hierarchical Multi-task Learning and Relationship Attention

动机：
在属性定位中增加像素级的监督，从而改进特征学习；局部属性和全局属性存在空间差异；
不同属性之间存在语义关系。

贡献：
(1)提出了一种端到端的深度多任务学习方法，将语义分割与特征学习中的细粒度像素级属性定位相结合。
(2)提出了一种两阶段学习策略，通过在单个模型中逐级分离粗属性定位和细属性识别来增强特征学习。
(3)提出了一个属性关系注意模块来捕捉不同属性之间的关系，进一步增强了该特征以更好地预测

1.在属性定位中增加像素级的监督，从而改进特征学习的措施是将人体语义分割引入到PAR中，构建一个多任务学习模型。
2.局部属性和全局属性存在空间差异的解决措施是构造了一个分层的两阶段深度CNN。第一个阶段的目的是在早期定位与一些常见的局部属性相关的基本身体部位，并帮助后续的特征学习在更准确的位置。接下来的第二阶段是通过后一层构建更强大的特性，用于全局和局部属性预测。
3.不同属性之间存在语义关系的解决措施是在两阶段多任务框架的基础上，提出了一个属性关系注意模块，该模块通过附加的权重分配来细化最终预测。

框架:
Pedestrian Attribute Recognition via Hierarchical Multi-task Learning and Relationship Attention
该框架由三部分组成：多任务学习网络、和分层学习机制、属性关系注意模块
多任务学习网络包含两个高度相关的任务，即PAR和人体语义分割，目的是通过更精确的像素级属性定位来强化前者。
分层学习机制将多任务学习网络升级为一个层次化的网络，在这个网络中，多任务学习分两个连续的阶段进行，将特征学习分解为粗属性定位和细属性分类。在第一阶段，目标是提取有区别的局部特征来本地化低级属性，因此没有构建一个非常深入的架构。通过粗略的预测和局部特征，进一步细化了第二阶段的结果。
属性关系注意模块
Pedestrian Attribute Recognition via Hierarchical Multi-task Learning and Relationship Attention
实验：
在ResNet-50网络上做

消融实验：

下图是一些语义分割的可视化结果，对于人体语义分割，阶段I和阶段II的ground-truth和predicted segmentation label maps以灰度形式显示。对于PAR任务，GAP之前的**图显示为灰度图，其中较深的颜色表示该像素与相应属性的相关性较低，反之亦然。
通过观察可视化结果可以得到以下结论：
1.用较浅的网络对粗糙属性定位建模有利于后续的特征学习
2.该模型能够成功地定位某些局部属性，如长发、运动鞋等。注意，某些属性可能与其他属性具有很强的相关性，如长发“和女性”，该方法可以成功地捕获这些相关性。
3.一些属性的**范围往往比估计的更广，如长发”，因为全局语义似乎会影响这些属性，而属性关系注意模块可能会对这些属性产生进一步的促进作用
Pedestrian Attribute Recognition via Hierarchical Multi-task Learning and Relationship Attention