Parallel Feature Pyramid Network for Object Detection

用于目标检测的并行金字塔网络——PFPNet（解读）（原论文）

网络模型

PFPNet中的可视化通道不仅保留了对象的精细细节，还保留了与精确对象位置重叠的一致的高**值。

模型对比

Parallel Feature Pyramid Network for Object Detection

使用单尺度特征层进行视觉识别的变体DCNN模型及其对特征金字塔的扩展：自下而上的DCNN模型（a），沙漏网络（b）和基于SPP的网络（c）; 文中的网络模型（d）可以被视为（c）的扩展版本，用于多尺度物体检测。

文中提出并行特征金字塔网络（parallel FP network，PFPNet），通过扩大网络宽度来构建FP。如图中（d）所示，首先使用空间金字塔池（SPP）来生成具有不同大小的特征映射的宽FP池。接下来，将并行的特征映射应用于FP池的特征映射，这使得它们都具有相似级别的语义抽象。然后，多尺度上下文聚合（MSCA）模块将这些特征映射的大小调整为统一大小，并聚合它们的上下文信息以产生最终FP的每个级别。模型有效地组合了不同规模的上下文信息。由于我们FP的特征图具有相似的抽象级别，因此可以有效地降低FP级别之间的性能差异。

模型详解

如图中（d）所示，将FP排成一行，应用具有相同深度的变换函数来生成FP的每个级别。然后，使用所提出的MSCA模块聚合不同类型的上下文信息。

Base Network

PFPNet基于VGGNet-16 。在PFPNet中，VGGNet-16的最后一层全连接层去掉，换成卷积层对特征进行二次采样，修改后的VGGNet-16在ILSVRC数据集上进行预训练。

Bottleneck Layer

对于特征变换，使用Bottleneck Layer。为了提高计算效率，在3×3卷积之前应用1×1卷积以减少信道数量。无尺度/移位的批量标准化和线性整流单元（ReLU）用于输入标准化和**。1×1卷积产生具有C / 2通道的特征图，其中C是Bottleneck Layer的输出通道的数量。

FP Pool

FP Pool层不仅将特征映射的空间大小减小到特定大小，而且还可以聚合子区域中的上下文先验。利用具有各种尺寸的合并子区域的SPP层来构建用于对象检测和分割的FP。

Parallel Feature Pyramid Network for Object Detection

使用SPP层来构建FP池，其富含空间信息和多尺度语义对象信息。图示出了用于多尺度物体检测的PFPNet的架构。

MSCA

Parallel Feature Pyramid Network for Object Detection

将不同尺度的背景信息结合起来促进视觉分类任务。通过求和组合特征图从多个特征收集上下文信息。然而，黄等人。坚持认为求和会削弱网络中的信息流。他们引入了另一种方法，该方法涉及直接连接特征图以保留特征图层之间的最大信息流。 PFPNet使用级联来收集FP池中的上下文信息。