边框回归取值的含义

原文链接:https://blog.csdn.net/shenxiaolu1984/article/details/51066975

位置精修
目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000λ=10000。
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。
 

我的理解:回归器用了4096的特征,其本质是利用卷积形成的向量特征,修正selective search找出的最大可能框的小偏差。因为在最后一层的卷积输出的二维特征矩阵中,已经包含了目标的特征,对这些特征直接进行定位即可得出更加精确的定位框。这也是后续yolo系列直接一步回归到位的理论基础。

因为selective search算法是恒定的,它找出的框有稳定的偏差,回归器能通过统计规律找出这个稳定偏差。如果换了selective search算法,它的偏差有变化,要重新训练回归器学习它的新偏差才行。

SPP空间金字塔池化 原文地址:http://blog.csdn.net/hjimce/article/details/50187655

对于SPP(空间金字塔池化)与回归器的理解

我们知道在现有的CNN中,对于结构已经确定的网络,需要输入一张固定大小的图片,比如224*224,32*32,96*96等。这样对于我们希望检测各种大小的图片的时候,需要经过裁剪,或者缩放等一系列操作,这样往往会降低识别检测的精度,于是paper提出了“空间金字塔池化”方法,这个算法的牛逼之处,在于使得我们构建的网络,可以输入任意大小的图片,不需要经过裁剪缩放等操作,只要你喜欢,任意大小的图片都可以。不仅如此,这个算法用了以后,精度也会有所提高,总之一句话:牛逼哄哄。

思考:为了归一化,选取4×4的池化层就可以了,为什么还要用2×2和1的呢?

我的理解:对于很大的图,在4×4的网格中,每个网格中的数值,都保存了很强的目标图像特征,在2×2和1的网格中,这种特征也很强烈。因此对于256×(16+4+1)=5376维的全连接输入一维向量来说,这个向量中的每一个值都有很强特征,因此对于大目标的识别率就很高。

对于很小的图,在4×4的网格中,每个网格中有很多干扰,存在噪音,有时候噪音甚至还大于目标特征,因此每个网格中的数值代表的特征就很弱,但还是有的。在1网格中,这个特征是相对最强烈的。因此在5367维中,只有256维具有强特征,其它小格子里的特征要弱一些。尽管如此,分类器还是足够强大到能将这个维度进行分类,识别出目标。但置信度肯定不如大目标。

如果只有4×4的网格,那么这仅有的256维强特征也没有了,就降低了识别出目标的可能性。因此SPP的存在是有道理的,回答了思考中的问题。

相关文章:

  • 2021-06-13
  • 2021-04-13
  • 2021-04-30
  • 2021-06-30
  • 2022-12-23
  • 2021-11-22
  • 2021-04-27
猜你喜欢
  • 2021-07-30
  • 2021-08-25
  • 2021-07-15
  • 2021-11-01
  • 2022-12-23
  • 2021-07-28
  • 2021-09-20
相关资源
相似解决方案