Pose-aware Multi-level Feature Network for Human Object Interaction Detection

解决的问题：HOI(Human Object Interaction，人物交互关系预测)

输入一张图片，预测(人，物，动作)三元组

公开数据集：

HICO-DET

包含47,774张图片，包含了600类人物交互行为(使用verb-object对)，像骑车，骑马，持电话

117种常见行为，像骑，喂，...,无交互行为标签

80种常见物体，像自行车，手机等标签

朴素的想法：

对于一张图片先做目标检测，得到人体和物体所在区域，然后再提取①人②物③人∩物区域的特征，进行分类

Pose-aware Multi-level Feature Network for Human Object Interaction Detection

但是作者觉得这样的做法只能得到整体的一些特征，模型不容易学到一些局部特征，于是我们就使用人体关键点来作为指导，关键点所在区域当成attention mask，这样可以得到更多的局部特征

Pose-aware Multi-level Feature Network for Human Object Interaction Detection

Pipeline

Pose-aware Multi-level Feature Network for Human Object Interaction Detection

上述即为整体流程，backbone用来提特征，在得到特征图的基础上预测人物框，人体关键点，然后将相应的特征送到需要的模块中，做分类，即可得到结果

创新点：

1.使用Pose作指导，起到attention map的作用

2.pose可以起到全局和局部指导的作用