提出了用于2D/3D姿态估计,及行人行为分析的多任务框架。姿态估计一般做的事热点估计,需要使用argmax函数复原坐标,破坏了端到端的BP链。
姿态估计使用回归的方法,扩展Soft-argmax函数用于处理2D/3D姿态回归。姿态估计网络包括K个预测块,用于调整姿态,最后一个预测是姿态的估计。低层的视觉特征是副产物,姿态回归结构如下所示:
soft-argmax层,对于2D热力图输入,归一化的信号表示为关节点在(x,y)的概率图,关节点位置的期望为:
**行为识别**
分两步,其中一个基于行人关节点坐标序列,另外一个基于视觉特征序列。对于基于姿态的识别,使用全卷积网络从姿态中提取特征,生成行为热度图。
基于外观的识别,外观特征由低层视觉特征和行人部件概率图中提取,将视觉特征的张量与概率图相乘。
基于外形的识别和姿态识别的结果使用Softmax**的全链接层组合。
**实验结果**
姿态及外形特征组合带来的效果提升,不太大,一个点左右。