一、背景
鉴于RCNN 每次需要输入固定尺寸图片,图片经过裁剪或者缩放会丢失部分信息,导致识别精度下降,SPP-Net在此问题上有着很好的解决方法。具体出自于2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》。
二、RCNN crop/warp
由于RCNN 最后接着一个全连接层,需要输入固定图片尺寸,因此会有crop/warp的操作
crop 会导致有相关的特征被剔除掉了,影响到特征的提取;
warp 会导致图片的信息变形,影响识别精度
三、空间金字塔池化
SPPNet 在保持最后全连接不变,在全连接前添加一个空间金字塔池化层,使得任意尺寸图片最后都能得到相同的尺寸,具体如图所示:
任意尺寸的feature map用三个尺度的金字塔层分别池化,将池化后的结果拼接得到固定长度的特征向量(图中的256为filter的个数),送入全连接层进行后续操作
四、附录
https://cloud.tencent.com/developer/article/1441559
http://www..com/article/1892614992/