初识应用于目标检测的三种模型

一、RCNN

基本思想：

①对输入图像使用选择性搜索（selective search）选择多个高质量的候选区域（Region Proposal），这些区域一般在多个尺度下提取，具有不同大小形状，每个候选区域都将标注类别和真实边境框；

②选择一个预训练的卷积神经网络，并将之在输出层之前截断，将每个候选区变形为网络需要的输⼊尺寸，并通过前向计算输出抽取的候选区域特征；

③将每个候选区域的特征连同标注的类别作为一个样本，训练多个支持向量机（SVM）对目标进行分类，每个向量机用来判断样本是否属于属于某一个类别

④将每个候选区域的特征连同其标注的边界框作为一个样本，训练线性回归模型来预测真实边界框

模型展示：

初识应用于目标检测的三种模型

详述四个步骤：

候选区域生成

使用Selective Search 方法从一张图像生成约2000-3000个候选区域。

使用 Efficient Graph-Based Image Segmentation的方法获取原始分割区域R={r1,r2,…,rn}
初始化相似度集合S=∅
计算两两相邻区域之间的相似度，将其添加到相似度集合S

合并规则：颜色（颜色直方图）相近的；纹理（梯度直方图）相近的；合并后总面积小的；合并后，总面积在其Bounding Boxes中所占比例大的
从相似度集合S中找出，相似度最大的两个区域 ri 和rj，将其合并成为一个区域 rt，从相似度集合中除去原先与ri和rj相邻区域之间计算的相似度，计算rt与其相邻区域（原先与ri或rj相邻的区域）的相似度，将其结果添加的到相似度集合S中。同时将新区域 rt 添加到区域集合R中。
获取每个区域的边界区域（Bounding Boxes），这个结果就是物体位置的可能结果L

特征提取

预处理：

候选区域归一化
预训练：

借鉴Hinton 2012年在Image Net上的分类网络，提取的特征为4096维，之后送入一个4096->1000的全连接层进行分类，学习率0.01。
训练数据

输入一张图片，输出1000维的类别标号

类别判断

对每一类目标，使用一个线性SVM二类分类器进行判别。
正样本
本类的真值标定框。
负样本
考察每一个候选框，如果和本类所有标定框的重叠都小于0.3，认定其为负样本

位置精修

目标检测问题的衡量标准是重叠面积，有的看似精确的结果，却是候选框不够准确，重叠面积很小，故需要一个位置精修步骤
回归器

对每一类目标，使用一个线性回归器进行精修
训练样本
判定为本类的候选框中，和真值重叠面积大于0.6的候选框。

总结：

R-CNN主要缺点：需要对每个提议区域独立抽取特征。由于这些区域通常有⼤量重叠，

独立的特征抽取会导致大量的重复计算，因而速度慢

想象⼀下，我们可能从⼀张图像中选出上千个提议区域，对该图像做目标检测将导致上千次的卷积神经网络的前向计算。这个巨大的计算量令R-CNN难以在实际应用中被广泛采用。

二、Fast RCNN

改进：

主要在于只对整个图像作卷积神经网络的前向计算

基本思想：

与R-CNN相比，Fast R-CNN用来提取特征的卷积神经⽹络的输⼊是整个图像，而不是各个

候选区域。而且，这个网络通常会参与训练，即更新模型参数。设输⼊为⼀张图像，将卷积

神经⽹络的输出的形状记为1 × c × h1 × w1。

假设选择性搜索生成n个候选区域。这些形状各异的候选区域在卷积神经网络的输出上分

别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征（假设⾼和宽均分

别指定为h2和w2）以便于连结后输出。Fast R-CNN引入兴趣区域池化（region of interest

pooling，RoI池化）层，将卷积神经网络的输出和候选区域作为输入，输出连结后的各个候选

区域抽取的特征，形状为n × c × h2 × w2。

通过全连接层将输出形状变换为n × d，其中超参数d取决于模型设计。
预测类别时，将全连接层的输出的形状再变换为n × q并使⽤softmax回归（q为类别个数）。

预测边界框时，将全连接层的输出的形状变换为n × 4。也就是说，我们为每个候选区域预

测类别和边界框

兴趣区域池化层：兴趣区域池化层对每个区域的输出形状是可以直接指定的。该窗口将被划分为形状为h2 × w2的⼦窗口网格，且每个⼦窗口的大小大约为(h/h2) × (w/w2)。

举个栗子：

在4×4的输⼊上选取了左上⻆的3×3区域作为兴趣区域。对于该兴趣区域，我们通过2 × 2兴趣区域池化层得到⼀个2 × 2的输出。4个划分后的子窗口分别含有元素0、1、4、5（5最大），2、6（6最⼤），8、9（9最⼤），10。

初识应用于目标检测的三种模型

✔敲黑板

RCNN缺点：由于每一个候选框都要独自经过CNN，这使得花费的时间非常多。
FastRCNN解决：共享卷积层，现在不是每一个候选框都当做输入进入CNN了，而是输入一张完整的图片，在第五个卷积层再得到每个候选框的特征

RCNN方法：许多候选框（比如两千个）–>CNN–>得到每个候选框的特征–>分类+回归
FastRCNN方法：一张完整图片–>CNN–>得到每张候选框的特征–>分类+回归

模型展示：

初识应用于目标检测的三种模型

总结：

Fast RCNN的不足：选择性搜索中生成较多的候选区域

三、Faster RCNN

产生的意义：

Faster R-CNN提出将选择性搜索替换成区域候选网络（region proposal network），从而减少候选区域的生成数量，并保证目标检测的精度。

主要步骤：

使用填充为1的3 × 3卷积层变换卷积神经网络的输出，并将输出通道数记为c。这样，卷积

神经网络为图像抽取的特征图中的每个单元均得到⼀个长度为c的新特征。
以特征图每个单元为中心，生成多个不同大小和宽高比的锚框并标注它们。
用锚框中心单元长度为c的特征分别预测该锚框的二元类别（含目标还是背景）和边界框。
使用非极大值抑制，从预测类别为目标的预测边界框中移除相似的结果。最终输出的预测

边界框即兴趣区域池化层所需要的候选区域。

模型展示：

初识应用于目标检测的三种模型

详述步骤：

初识应用于目标检测的三种模型

特征提取：

原始特征提取（上图灰色方框）包含若干层conv+relu，直接套用ImageNet上常见的分类网络即可。

候选区域（anchor）

特征可以看做一个尺度5139的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积 {128^2, 256^2, 512^2 }×三种比例{ 1 : 1 , 1 : 2 , 2 : 1 } 这些候选窗口称为anchors。

初识应用于目标检测的三种模型

5139个anchor中心，以及9种anchor示例

三种尺度：

原图尺度：原始输入的大小。不受任何限制，不影响性能。归一化尺度：输入特征提取网络的大小，在测试时设置，anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。网络输入尺度：输入特征检测网络的大小，在训练时设置，示例为224*224。

窗口分类和位置精修

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率；窗口回归层（bbox_pred）输出每一个位置上，9个anchor对应窗口应该平移缩放的参数。
对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

区域生成网络：

样本：

考察训练集中的每张图像：
a. 对每个标定的真值候选区域，与其重叠比例最大的anchor记为前景样本
b. 对a)剩余的anchor，如果其与某个标定重叠比例大于0.7，记为前景样本；如果其与任意一个标定的重叠比例都小于0.3，记为背景样本
c. 对a),b)剩余的anchor，弃去不用。
d. 跨越图像边界的anchor弃去不用

代价函数

同时最小化两种代价：
a. 分类误差
b. 前景样本的窗口位置偏差

超参数

原始特征提取网络使用ImageNet的分类样本初始化，其余新增层随机初始化。
每个mini-batch（批量梯度下降）包含从一张图像中提取的256个anchor，前景背景样本1:1.
前60K迭代，学习率0.001，后20K迭代，学习率0.0001。
momentum（保持前次迭代的增量）设置为0.9，weight decay（每次迭代缩小参数，正则化）设置为0.0005。

总结：

Faster R-CNN的目标函数既包括目标检测中的类别和边界框预测，又包括区域候选网络中

锚框的⼆元类别和边界框预测。所有计算没有重复，完全在GPU中完成，大大提高了运行速度。