论文学习《Rich feature hierarchies for accurate object detection and semantic segmentation》

论文相关信息

论文发表在CVPR2014上
作者是UC Berkeley的Ross Girshick ，Jeff Donahue ，Trevor Darrell， Jitendra Malik
论文连接Link

论文介绍

文章提出了两个关键看法：
1.將CNN应用到自底向上的候选区域，能够定位和分割对象。
2.当标注数据很少时，pre-training + fine-tuning，能显著地提升表现。

文章第一次证明了CNN在目标检测上的性能远超基于HOG的系统。

文章提出了两个要解决的问题：
1.用深层网络去定位目标。
2.用少量的数据训练一个高性能的模型。
贡献了两个方法：
第一个问题的方法：用区域去做识别。这个方法在目标检测和语义分割上都很成功。
第二个问题的方法：先在大的数据集上预训练模型，然后在小的数据集上微调。这是文章的第二个贡献。

R-CNN的网络结构

论文学习《Rich feature hierarchies for accurate object detection and semantic segmentation》
上图是R-CNN网络结构的示意图，第一步是输入图片；第二步是提取候选区域；第三步是在候选区域上用CNN计算特征；第四步是用SVM对候选区域分类。
其中：
1.候选区域采用选择性搜索方法产生。
2.特征抽取采用的是AlexNet，由于AlexNet的输入大小是固定的，而候选区域的大小是任意的，所以作者强行把候选区扭曲到满足AlexNet输入的大小。
3.对于分类后的输出区域，用非极大值抑制的办法剔除与得分最高的区域IoU大于阈值的区域。

实验

论文学习《Rich feature hierarchies for accurate object detection and semantic segmentation》
上图比较了R-CNN与四个baseline在VOC 2010 test上的表现，对比使用相同候选区算法的UVA有了从35.1%到50.2%mAP的提升。其中R-CNN BB是增加了bounding boxs回归的R-CNN。