原文链接:https://blog.csdn.net/shenxiaolu1984/article/details/51066975
位置精修
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000λ=10000。
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。
我的理解:回归器用了4096的特征,其本质是利用卷积形成的向量特征,修正selective search找出的最大可能框的小偏差。因为在最后一层的卷积输出的二维特征矩阵中,已经包含了目标的特征,对这些特征直接进行定位即可得出更加精确的定位框。这也是后续yolo系列直接一步回归到位的理论基础。
因为selective search算法是恒定的,它找出的框有稳定的偏差,回归器能通过统计规律找出这个稳定偏差。如果换了selective search算法,它的偏差有变化,要重新训练回归器学习它的新偏差才行。
SPP空间金字塔池化 原文地址:http://blog.csdn.net/hjimce/article/details/50187655
我们知道在现有的CNN中,对于结构已经确定的网络,需要输入一张固定大小的图片,比如224*224,32*32,96*96等。这样对于我们希望检测各种大小的图片的时候,需要经过裁剪,或者缩放等一系列操作,这样往往会降低识别检测的精度,于是paper提出了“空间金字塔池化”方法,这个算法的牛逼之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作,只要你喜欢,任意大小的图片都可以。不仅如此,这个算法用了以后,精度也会有所提高,总之一句话:牛逼哄哄。
思考:为了归一化,选取4×4的池化层就可以了,为什么还要用2×2和1的呢?
我的理解:对于很大的图,在4×4的网格中,每个网格中的数值,都保存了很强的目标图像特征,在2×2和1的网格中,这种特征也很强烈。因此对于256×(16+4+1)=5376维的全连接输入一维向量来说,这个向量中的每一个值都有很强特征,因此对于大目标的识别率就很高。
对于很小的图,在4×4的网格中,每个网格中有很多干扰,存在噪音,有时候噪音甚至还大于目标特征,因此每个网格中的数值代表的特征就很弱,但还是有的。在1网格中,这个特征是相对最强烈的。因此在5367维中,只有256维具有强特征,其它小格子里的特征要弱一些。尽管如此,分类器还是足够强大到能将这个维度进行分类,识别出目标。但置信度肯定不如大目标。
如果只有4×4的网格,那么这仅有的256维强特征也没有了,就降低了识别出目标的可能性。因此SPP的存在是有道理的,回答了思考中的问题。