对于SPP（空间金字塔池化）与回归器的理解

原文链接：https://blog.csdn.net/shenxiaolu1984/article/details/51066975

位置精修
目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标，使用一个线性脊回归器进行精修。正则项λ=10000λ=10000。
输入为深度网络pool5层的4096维特征，输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中，和真值重叠面积大于0.6的候选框。

我的理解：回归器用了4096的特征，其本质是利用卷积形成的向量特征，修正selective search找出的最大可能框的小偏差。因为在最后一层的卷积输出的二维特征矩阵中，已经包含了目标的特征，对这些特征直接进行定位即可得出更加精确的定位框。这也是后续yolo系列直接一步回归到位的理论基础。

因为selective search算法是恒定的，它找出的框有稳定的偏差，回归器能通过统计规律找出这个稳定偏差。如果换了selective search算法，它的偏差有变化，要重新训练回归器学习它的新偏差才行。

SPP空间金字塔池化 原文地址：http://blog.csdn.net/hjimce/article/details/50187655

对于SPP（空间金字塔池化）与回归器的理解

我们知道在现有的CNN中，对于结构已经确定的网络，需要输入一张固定大小的图片，比如224*224，32*32,96*96等。这样对于我们希望检测各种大小的图片的时候，需要经过裁剪，或者缩放等一系列操作，这样往往会降低识别检测的精度，于是paper提出了“空间金字塔池化”方法，这个算法的牛逼之处，在于使得我们构建的网络，可以输入任意大小的图片，不需要经过裁剪缩放等操作，只要你喜欢，任意大小的图片都可以。不仅如此，这个算法用了以后，精度也会有所提高，总之一句话：牛逼哄哄。

思考：为了归一化，选取4×4的池化层就可以了，为什么还要用2×2和1的呢？

我的理解：对于很大的图，在4×4的网格中，每个网格中的数值，都保存了很强的目标图像特征，在2×2和1的网格中，这种特征也很强烈。因此对于256×（16+4+1）=5376维的全连接输入一维向量来说，这个向量中的每一个值都有很强特征，因此对于大目标的识别率就很高。

对于很小的图，在4×4的网格中，每个网格中有很多干扰，存在噪音，有时候噪音甚至还大于目标特征，因此每个网格中的数值代表的特征就很弱，但还是有的。在1网格中，这个特征是相对最强烈的。因此在5367维中，只有256维具有强特征，其它小格子里的特征要弱一些。尽管如此，分类器还是足够强大到能将这个维度进行分类，识别出目标。但置信度肯定不如大目标。

如果只有4×4的网格，那么这仅有的256维强特征也没有了，就降低了识别出目标的可能性。因此SPP的存在是有道理的，回答了思考中的问题。