目的:能够处理任意输入大小的图片

一、介绍

总所周知,识别尺寸差异很大的物体是计算机视觉所面临的基本挑战之一。
因此提出了几种解决方法:
1、通过图像金字塔来构建不同尺度的特征金字塔
【FPN】特征金字塔
优点:
1)对每一种尺度的图像进行特征提取,能够产生多尺度的特征表示,并且所有等级的特征图都具有较强的语义信息,能有助于识别
缺点:
1)推理时间大幅增加;
2)占用大量内存
3)如果只在测试时候用图像金字塔,就会导致网络只针对某一个特定的分辨率进行训练。

2、常见的目标检测网络
【FPN】特征金字塔
利用单个高层特征图来进行预测。

3、金字塔特征层级
【FPN】特征金字塔
利用不同尺度的特征都进行预测。
缺点:低层特征图语义信息不足,且高层特征图分辨率不高

4、特征金字塔
【FPN】特征金字塔

这种结构使得每一层不同尺度的特征图都有较强的语义信息。
优点:只增加了较少的计算量,却能够融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。

二、FPN网络

【FPN】特征金字塔
1、Bottom-up pathway
每一级网上都用step=2的降采样。
每一层的输出特征图经过1 x 1卷积后加到up-bottom对应的层上。
2、Up-down pathway and lateral connections
自顶向下的过程是上采样,将小特征图放大。
这里的上采样是采用最近邻插值。
对于最近邻插值:可以在上采样过程中最大程度地保留语义信息(有利于分类),而和对应bottom-up中的特征图(高分辨率,有利于定位)进行特征融合,从而得到既有良好的空间信息又有较强语义信息的特征图。

相关文章: