初识应用于目标检测的三种模型

一、RCNN

基本思想:

①对输入图像使用选择性搜索(selective search)选择多个高质量的候选区域(Region Proposal),这些区域一般在多个尺度下提取,具有不同大小形状,每个候选区域都将标注类别和真实边境框;

②选择一个预训练的卷积神经网络,并将之在输出层之前截断,将每个候选区变形为网络需要的输⼊尺寸,并通过前向计算输出抽取的候选区域特征;

③将每个候选区域的特征连同标注的类别作为一个样本,训练多个支持向量机(SVM)对目标进行分类,每个向量机用来判断样本是否属于属于某一个类别

④将每个候选区域的特征连同其标注的边界框作为一个样本,训练线性回归模型来预测真实边界框

模型展示:

初识应用于目标检测的三种模型

详述四个步骤:

候选区域生成

​ 使用Selective Search 方法从一张图像生成约2000-3000个候选区域。

  1. 使用 Efficient Graph-Based Image Segmentation的方法获取原始分割区域R={r1,r2,…,rn}

  2. 初始化相似度集合S=∅

  3. 计算两两相邻区域之间的相似度,将其添加到相似度集合S

    合并规则:颜色(颜色直方图)相近的;纹理(梯度直方图)相近的;合并后总面积小的;合并后,总面积在其Bounding Boxes中所占比例大的

  4. 从相似度集合S中找出,相似度最大的两个区域 ri 和rj,将其合并成为一个区域 rt,从相似度集合中除去原先与ri和rj相邻区域之间计算的相似度,计算rt与其相邻区域(原先与ri或rj相邻的区域)的相似度,将其结果添加的到相似度集合S中。同时将新区域 rt 添加到 区域集合R中。

  5. 获取每个区域的边界区域(Bounding Boxes),这个结果就是物体位置的可能结果L

特征提取
  • 预处理:

    候选区域归一化

  • 预训练:

    借鉴Hinton 2012年在Image Net上的分类网络,提取的特征为4096维,之后送入一个4096->1000的全连接层进行分类,学习率0.01。

  • 训练数据

    输入一张图片,输出1000维的类别标号

类别判断
  • 对每一类目标,使用一个线性SVM二类分类器进行判别。
  • 正样本
    本类的真值标定框。
    负样本
    考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本
位置精修
  • 目标检测问题的衡量标准是重叠面积,有的看似精确的结果,却是候选框不够准确,重叠面积很小,故需要一个位置精修步骤

  • 回归器

    对每一类目标,使用一个线性回归器进行精修

  • 训练样本
    判定为本类的候选框中,和真值重叠面积大于0.6的候选框。

总结:

R-CNN主要缺点:需要对每个提议区域独立抽取特征。由于这些区域通常有⼤量重叠,

独立的特征抽取会导致大量的重复计算,因而速度慢

想象⼀下,我们可能从⼀张图像中选出上千个提议区域,对该图像做目标检测将导致上千次的卷积神经网络的前向计算。这个巨大的计算量令R-CNN难以在实际应用中被广泛采用。

二、Fast RCNN

改进:

主要在于只对整个图像作卷积神经网络的前向计算

基本思想:
  1. 与R-CNN相比,Fast R-CNN用来提取特征的卷积神经⽹络的输⼊是整个图像,而不是各个

候选区域。而且,这个网络通常会参与训练,即更新模型参数。设输⼊为⼀张图像,将卷积

神经⽹络的输出的形状记为1 × c × h1 × w1。

  1. 假设选择性搜索生成n个候选区域。这些形状各异的候选区域在卷积神经网络的输出上分

别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征(假设⾼和宽均分

别指定为h2和w2)以便于连结后输出。Fast R-CNN引入兴趣区域池化(region of interest

pooling,RoI池化)层,将卷积神经网络的输出和候选区域作为输入,输出连结后的各个候选

区域抽取的特征,形状为n × c × h2 × w2。

  1. 通过全连接层将输出形状变换为n × d,其中超参数d取决于模型设计。

  2. 预测类别时,将全连接层的输出的形状再变换为n × q并使⽤softmax回归(q为类别个数)。

预测边界框时,将全连接层的输出的形状变换为n × 4。也就是说,我们为每个候选区域预

测类别和边界框

兴趣区域池化层:兴趣区域池化层对每个区域的输出形状是可以直接指定的。该窗口将被划分为形状为h2 × w2的⼦窗口网格,且每个⼦窗口的大小大约为(h/h2) × (w/w2)。

举个栗子:

在4×4的输⼊上选取了左上⻆的3×3区域作为兴趣区域。对于该兴趣区域,我们通过2 × 2兴趣区域池化层得到⼀个2 × 2的输出。4个划分后的子窗口分别含有元素0、1、4、5(5最大),2、6(6最⼤),8、9(9最⼤),10。

初识应用于目标检测的三种模型

✔敲黑板

RCNN缺点:由于每一个候选框都要独自经过CNN,这使得花费的时间非常多。
FastRCNN解决:共享卷积层,现在不是每一个候选框都当做输入进入CNN了,而是输入一张完整的图片,在第五个卷积层再得到每个候选框的特征

RCNN方法:许多候选框(比如两千个)–>CNN–>得到每个候选框的特征–>分类+回归
FastRCNN方法:一张完整图片–>CNN–>得到每张候选框的特征–>分类+回归

模型展示:

初识应用于目标检测的三种模型

总结:

Fast RCNN的不足:选择性搜索中生成较多的候选区域

三、Faster RCNN

产生的意义:
  • Faster R-CNN提出将选择性搜索替换成区域候选网络(region proposal network),从而减少候选区域的生成数量,并保证目标检测的精度。
主要步骤:
  1. 使用填充为1的3 × 3卷积层变换卷积神经网络的输出,并将输出通道数记为c。这样,卷积

    神经网络为图像抽取的特征图中的每个单元均得到⼀个长度为c的新特征。

  2. 以特征图每个单元为中心,生成多个不同大小和宽高比的锚框并标注它们。

  3. 用锚框中心单元长度为c的特征分别预测该锚框的二元类别(含目标还是背景)和边界框。

  4. 使用非极大值抑制,从预测类别为目标的预测边界框中移除相似的结果。最终输出的预测

    边界框即兴趣区域池化层所需要的候选区域。

模型展示:

初识应用于目标检测的三种模型

详述步骤:

初识应用于目标检测的三种模型

特征提取:

​ 原始特征提取(上图灰色方框)包含若干层conv+relu,直接套用ImageNet上常见的分类网络即可。

候选区域(anchor)

​ 特征可以看做一个尺度5139的256通道图像,对于该图像的每一个位置,考虑9个可能的候选窗口:三种面积 {128^2, 256^2, 512^2 }×三种比例{ 1 : 1 , 1 : 2 , 2 : 1 } 这些候选窗口称为anchors。

初识应用于目标检测的三种模型

​ 5139个anchor中心,以及9种anchor示例

三种尺度:

原图尺度:原始输入的大小。不受任何限制,不影响性能。 归一化尺度:输入特征提取网络的大小,在测试时设置,anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。 网络输入尺度:输入特征检测网络的大小,在训练时设置,示例为224*224。

窗口分类和位置精修

分类层(cls_score)输出每一个位置上,9个anchor属于前景和背景的概率;窗口回归层(bbox_pred)输出每一个位置上,9个anchor对应窗口应该平移缩放的参数。
对于每一个位置来说,分类层从256维特征中输出属于前景和背景的概率;窗口回归层从256维特征中输出4个平移缩放参数。

区域生成网络:

样本

考察训练集中的每张图像:
a. 对每个标定的真值候选区域,与其重叠比例最大的anchor记为前景样本
b. 对a)剩余的anchor,如果其与某个标定重叠比例大于0.7,记为前景样本;如果其与任意一个标定的重叠比例都小于0.3,记为背景样本
c. 对a),b)剩余的anchor,弃去不用。
d. 跨越图像边界的anchor弃去不用

代价函数

同时最小化两种代价:
a. 分类误差
b. 前景样本的窗口位置偏差

超参数

原始特征提取网络使用ImageNet的分类样本初始化,其余新增层随机初始化。
每个mini-batch(批量梯度下降)包含从一张图像中提取的256个anchor,前景背景样本1:1.
前60K迭代,学习率0.001,后20K迭代,学习率0.0001。
momentum(保持前次迭代的增量)设置为0.9,weight decay(每次迭代缩小参数,正则化)设置为0.0005。

总结:

Faster R-CNN的目标函数既包括目标检测中的类别和边界框预测,又包括区域候选网络中

锚框的⼆元类别和边界框预测。所有计算没有重复,完全在GPU中完成,大大提高了运行速度。

相关文章:

  • 2022-01-20
  • 2021-08-06
  • 2021-10-10
  • 2022-01-11
  • 2021-08-16
  • 2021-08-25
  • 2021-06-08
  • 2021-12-05
猜你喜欢
  • 2022-12-23
  • 2021-07-07
  • 2021-06-28
  • 2022-12-23
  • 2021-10-31
  • 2021-11-13
  • 2021-08-02
相关资源
相似解决方案