姿态估计“2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning”

提出了用于2D/3D姿态估计，及行人行为分析的多任务框架。姿态估计一般做的事热点估计，需要使用argmax函数复原坐标，破坏了端到端的BP链。

姿态估计使用回归的方法，扩展Soft-argmax函数用于处理2D/3D姿态回归。姿态估计网络包括K个预测块，用于调整姿态，最后一个预测是姿态的估计。低层的视觉特征是副产物，姿态回归结构如下所示：

姿态估计“2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning”

soft-argmax层，对于2D热力图输入，归一化的信号表示为关节点在（x,y）的概率图，关节点位置的期望为：

姿态估计“2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning”

**行为识别**

分两步，其中一个基于行人关节点坐标序列，另外一个基于视觉特征序列。对于基于姿态的识别，使用全卷积网络从姿态中提取特征，生成行为热度图。

姿态估计“2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning”

基于外观的识别，外观特征由低层视觉特征和行人部件概率图中提取，将视觉特征的张量与概率图相乘。

姿态估计“2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning”

基于外形的识别和姿态识别的结果使用Softmax**的全链接层组合。

**实验结果**

姿态及外形特征组合带来的效果提升，不太大，一个点左右。

姿态估计“2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning”