笔记：EfficientDet: Scalable and Efficient Object Detection

多尺度高效目标检测网络

摘要

提出一个加权的双向特征金字塔网络（BiFPN），该网络允许简单快速的多尺度特征融合；其次，提出一种复合尺度方法，该方法可以同时对所有骨干网、特征网络和box/类预测网络的分辨率、深度和宽度进行均匀的尺度调整。基于这些操作优化和EfficientNet骨干网，开发了一个新的目标检测器EfficientDet。在单模型和单尺度下，在COCO测试上实现了最先进的52.2 AP，52M参数和325B FLOPs，比以前的检测器小4-9倍，使用的FLOPS也少13-42倍。

一. 介绍

问题：是否有可能建立一个可扩展的检测体系结构，在广泛的资源约束范围内（例如，从3B到300B的FLOPs）同时具有更高的精度和更好的效率

挑战1：高效的多尺度特征融合---FPN已经被广泛应用于多尺度特征融合。

挑战2：模型缩放---虽然以前的工作主要依赖于更大的主干网络或更大的输入图像大小以获得更高的精度，但我们认为，在兼顾精度和效率的情况下，放大特征网络和box/类预测网络也是至关重要的。

将EfficientNet骨干网与我们提出的BiFPN和复合标度相结合，开发了一个新的目标检测器EfficientDet，与以前的目标检测器相比，它在更少的参数和触发器的情况下始终能获得更好的精度。

二. 相关工作

One-Stage Detectors

Multi-Scale Feature Representations

Model Scaling

三. BiFPN

3.1 问题表述

多尺度特征表：笔记：EfficientDet: Scalable and Efficient Object Detection ，P代表li层上的特征

f代表尺度特征转化：笔记：EfficientDet: Scalable and Efficient Object Detection ，

以下例子：

笔记：EfficientDet: Scalable and Efficient Object Detection

FPN：

笔记：EfficientDet: Scalable and Efficient Object Detection

resize 上采样或下采样

3.2 横向连接 Cross-Scale Connections

传统的自顶向下FPN受到单向信息流的限制。为了解决这个问题，PANet添加了一个额外的自底向上的金字塔网络，如上图b。NAS-FPN采用神经架构搜索来搜索更好的跨尺度特征网络拓扑结构，但在搜索过程中需要数千GPU小时，发现的网络是不规则的，很难解释或修改，如c。通过研究这三种网络的性能和效率，发现PANet比FPN和NAS-FPN具有更好的精度，但需要花费更多的参数和计算。

为了提高模型的效率，本文提出了几种跨尺度连接的优化方法：

首先，移除只有一个输入边的节点。我们的直觉很简单：如果一个节点只有一个输入边而没有特征融合，那么它对以融合不同特征为目的的特征网络的贡献就较小。这将产生一个简化的双向网络；

第二，如果原始输入节点与输出节点处于同一级别，我们将在它们之间添加额外的边，以便在不增加太多成本的情况下融合更多特征；

第三，与PANet不同，PANet只有一个自顶向下和一个自底向上的路径，我们将每个双向（自上而下和自下而上）路径视为一个特征网络层，并多次重复同一层，以实现更高层次的特征融合。第4.2节将讨论如何使用复合缩放方法确定不同资源约束的层数。通过这些优化，我们将新特性网络命名为BiFPN

3.3 加权特征融合 Weighted Feature Fusion

由于不同输入特征在不同的分辨率下，它们通常对输出特征的贡献是不平等的。为了解决这个问题，我们为每个输入增加一个额外的权重，并让网络了解每个输入特征的重要性。基于此，我们考虑三种加权融合方法：

Unbounded fusion: 笔记：EfficientDet: Scalable and Efficient Object Detection

其中wi是可学习的权重，可以是标量（每个特征）、向量（每个通道）或多维张量（每个像素）的。然而，由于标量权重是无限的，它可能会导致训练的不稳定性。因此，我们使用权重规范化来限定每个权重的值范围，如下 soft。

Softmax-based fusion: 笔记：EfficientDet: Scalable and Efficient Object Detection

将softmax应用于每个权重，这样所有权重都被规范化为一个值范围为0到1的概率。然鹅鹅外的softmax导致GPU硬件显著减速。为了最小化额外的延迟成本，我们进一步提出了一种快速融合方法。

Fast normalized fusion: 笔记：EfficientDet: Scalable and Efficient Object Detection

wi≥0，通过在每个wi之后应用Relu来保证，也达到了0～1规范。ε=0.0001是避免数值不稳定性的一个小值。

例子 BiFPN

笔记：EfficientDet: Scalable and Efficient Object Detection

ptd为中间特征，参照上图网络结构理解。

四. EfficientDet

4.1 网络结构

笔记：EfficientDet: Scalable and Efficient Object Detection

4.2 复合尺度（Compound Scaling）

以前的工作主要是通过使用更大的骨干网络、使用更大的输入图像或堆叠更多的FPN层来放大基线检测器。这些方法通常是低效的，因为它们只关注单一或有限的尺度。

我们提出一种新的目标检测的复合尺度方法，该方法使用简单的复合系数φ来联合放大骨干网络、BiFPN网络、类/盒网络和分辨率的所有维度。

看EfficientNet

下图为模型缩放的示意图，其中图a描述了一个基础的网络结构，图b-图d为分别对网络宽度、网络深度、分辨率进行扩大。图e为对网络宽度、深度、分辨率统一扩大。

笔记：EfficientDet: Scalable and Efficient Object Detection

整个卷积网络为N，第i个卷积层笔记：EfficientDet: Scalable and Efficient Object Detection

整个卷积网络为N 笔记：EfficientDet: Scalable and Efficient Object Detection

通常将多个结构相同的卷积层称为一个 stage，例如 ResNet 可以分为 5 个 stage，每个 stage 中的卷积层结构相同(除了第一层为降采样层)。以 stage 为单位可以将卷积网络 N 表示为：

笔记：EfficientDet: Scalable and Efficient Object Detection

下标 i(从 1 到 s) 表示 stage 的序号，FL表示第 i 个 stage ，它由卷积层F重复L次构成， H W C表示该 stage 输入维度。

在运算量、资源受限的环境下，通过优化网络深度d，宽度w，分辨率r，使得准确度最大的优化问题：

笔记：EfficientDet: Scalable and Efficient Object Detection

限制优化变量的取值范围，

笔记：EfficientDet: Scalable and Efficient Object Detection

α，β，γ为常量；φ为用户定义的尺度变化参数，将网络的深度d加倍，将会使得计算量变为原来的2倍，将网络的通道宽度w和分辨率r加倍将会使得计算量变为原来的4倍。因此，设置α · β^2 · γ^2 ≈ 2，最终的计算量FLOAPS数目为2φ。