MultiPoseNet: Fast Multi-Person Pose Estimation using Pose Residual Network

The backbone of MultiPoseNet serves as a feature extractor for keypoint and person detection subnets. It is actually a ResNet [36] with two Feature Pyramid Networks (FPN)

MultiposeNet的主干用作关键点和人员检测子网的特征提取器。它实际上是一个具有两个特征金字塔网络(FPN)[36]的Resnet[36]连接的

(one for the keypoint subnet, the other for the person detection subnet) connected to it，

(一个用于KeyPoint子网，另一个用于人员检测子网)

FPN creates pyramidal feature maps with top-down connections from all levels of CNN’s feature hierarchy to make use of inherent multi-scale representations of a CNN feature extractor

fpn利用cnn特征提取器固有的多尺度表示，从cnn的各个层次创建具有自顶向下连接的金字塔特征映射。

By doing so, FPN compromises high resolution, weak representations with low resolution, strong representations. Powerful localization and classification properties of FPN proved to be very successful in detection, segmentation and keypoint tasks recently [9, 11, 39, 41].

通过这样做，FPN折衷了高分辨率、低分辨率的弱表示、强的表示。FPN的强大定位和分类性能在最近[9,11,39,41]中被证明是非常成功的检测、分割和关键点任务。

n our model, we extracted features from the last residual blocks C2, C3, C4, C5 with strides of (4,8,16,32) pixels and compute corresponding FPN features per subnet.

在我们的模型中，我们从最后的残差块C2、C3、C4、C5中提取了具有(4，8，16，32)个像素的步幅的特征，并计算每个子网的对应的FPN特征。

3.2 Keypoint Estimation Subnet

关键点估计子网（图3)采用分层cnn特征(由相应的fpn输出)并输出关键点和分段热图。热图将关键点位置表示为高斯峰值。每个热贴图图层都属于特定的关键点类（鼻子、手腕、脚踝等）并包含与人员实例相关的任意数量的峰值。最后一层热贴图处的人分割掩模对图像中的人的像素方向空间布局进行编码。

MultiPoseNet: Fast Multi-Person Pose Estimation using Pose Residual Network

A set of features specific to the keypoint detection task are computed similarly to [39] with top-down and lateral connections from the bottom-up pathway. K2 −K5 features have the same spatial size corresponding to C2 −C5 blocks but the depth is reduced to 256. K features are identical to P features in the original FPN paper, but we denote them with K to distinguish from person detection subnet layers. The depth of P features is downsized to 128 with 2 subsequent 3×3 convolutions to obtain D2, D3, D4, D5 layers. Since D features still have different strides, we upsampled D3, D4, D5 accordingly to match 4-pixel stride as D2 features and concatenated them into a single depth-512 feature map. Concatenated features are smoothed by a 3 × 3 convolution with ReLU. Final heatmap which has (K + 1) layers obtained via 1×1 convolutions without activation. The final output is multiplied with a binary mask of W which has W(p) = 0 in the area of the persons without annotation. K is the number of human keypoints annotated in a dataset and +1 is person segmentation mask. In addition to the loss applied in the last layer, we append a loss at each level of K features to benefit from intermediate supervision. Semantic person segmentation masks are predicted in the same way with keypoints

一组特定于键点检测任务的特征与[39]相似地计算，从自下而上的路径具有自顶向下的和横向的连接。K2−k5特征具有与c2−c5块相同的空间大小，但深度减小到256。K特征与原FPN文件中的p特征相同，但我们用k表示它们，以区别于人检测子网层。p特征的深度减小到128，随后有2个3×3的卷积，得到D2，d3，d4，d5层。由于d特征仍有不同的步幅，因此我们对d3、d4、d5进行了相应的采样，以匹配d2特征的4像素步幅，并将它们连接到一个单一深度-512特征图中。级联特征用3×3卷积与重力线平滑。具有(K1)层的最终热图，它是通过1×1卷积得到的，没有**。最后输出与没有注释的人员区域中具有w(P)=0的二进制掩码w相乘。K是数据集中注释的人的关键点数，1是人的分割掩码。除了在最后一层应用的损失之外，我们还在k特征的每一层附加了一个损失，以便从中间监督中受益。语义人的切分掩码与关键点的预测方法是一致的。

训练中由于不同的收敛时间和损失不平衡，分别对关键点和人的检测任务进行了训练。为了在这两个任务中使用相同的主干网，我们首先用KeyPoint子网图来训练模型。3.对骨干网参数进行冻结，并对检测子网进行训练。由于这两个任务在语义上是相似的，人员检测结果不会受到冻结脊骨的不利影响。

我们利用Tensorflow[46]和Keras[47]深层学习库实施培训和测试程序。对于人员检测，我们使用开源kerasretinanet[48]实现

关键点估计子网：对于KeyPoint训练，我们使用了480x480图像补丁，这些补丁围绕着人群或场景中的主要人物。在±40度之间随机旋转在训练过程中，随机缩放在0.8~1.2和垂直翻转之间，概率为0.3。我们在训练前转移了ImageNet[49]对每个骨干的预训练权重。我们用ADAM[50]对模型进行了优化，从学习速率1e-4开始，在平台上将其降低了0.1倍。我们使用位于关键点位置的高斯峰值作为计算L2损失的地面事实，我们对未注释的人进行了掩蔽（忽略）。我们将分割遮罩附加到地面真理作为一个额外的层，并与关键点热图一起训练。我们最小化的成本函数

MultiPoseNet: Fast Multi-Person Pose Estimation using Pose Residual Network

其中ht和hp分别是地面真实图和预测热图，w是用来忽略不带注释的Person实例的掩码。

员检测子网：我们遵循了与[41]类似的人员检测培训策略。使用包含人员的图像，将其调整大小，以使较短的边缘为800像素。我们在关键点训练后冻结了主干权重，并在人员检测培训期间未更新。我们优化了ADAM[50]的子网，从学习速度1E-5开始，在Plateaux中降低了0.1倍。在分类和BBox回归中，我们使用的focal loss分别为（0=2，0=0.25）和平滑L1损失。我们使用具有0.3的阈值的NMS获得了最终的建议。位姿残差网络：在训练过程中，我们裁剪输入和输出对，并根据包围盒的建议调整热图的大小。所有作物都被调整为固定大小为36×56(高/宽=1.56)。我们分别对PRN网络进行了训练，在训练过程中使用了ADAM优化器[50]，学习率为1E-4。由于模型较浅，收敛时间约为1.5小时。我们训练了具有2个以上关键点的人实例的模型。我们利用了一种基于关键点和边界框区域的注释排序注释的课程学习[51]。在每个时期，模型开始学习易于预测的实例，在以后的阶段给出了硬的例子。推断出整个体系结构(见图中)。(1)在测试过程中表现为一个整体的端到端模型.首先，通过主干模型对图像(w×h×3)进行多尺度特征提取；Person和KeyPoint检测子网从提取的特征中同时计算输出。关键点输出为w×h×(K1)大小的热图。k是KeyPoint通道的数目，1是分段通道的数目。人的检测以n×5的形式存在，其中n为人数，5通道对应4个包围盒坐标和置信度。关键点热图被裁剪和调整大小，以形成玫瑰根据人的探测。实验确定了最佳的ROI尺寸为36×56×(K1)。PRN将每个ROI作为单独的输入，然后输出相同大小的ROI，在每一层热图中只选择一个关键点。所有选定的关键点都被分组为Person实例。

在本文中，我们引入了位姿残差网络，它能够精确地为多任务学习结构(Multiposenet)输出的人的检测分配关键点。我们的姿态估计方法在自下而上的方法中取得了最先进的性能，并与自顶向下的方法取得了比较好的结果.与以往的方法相比，我们的方法具有最快的推理时间。给出了位姿残差网络消融分析的赋值性能。通过联合生成关键点、人包围盒和人的分割结果，展示了多任务学习模型的表征能力。