论文相关信息

论文发表在CVPR2014上
作者是UC Berkeley的Ross Girshick ,Jeff Donahue ,Trevor Darrell, Jitendra Malik
论文连接Link

论文介绍

文章提出了两个关键看法:
1.將CNN应用到自底向上的候选区域,能够定位和分割对象。
2.当标注数据很少时,pre-training + fine-tuning,能显著地提升表现。

文章第一次证明了CNN在目标检测上的性能远超基于HOG的系统。

文章提出了两个要解决的问题:
1.用深层网络去定位目标。
2.用少量的数据训练一个高性能的模型。
贡献了两个方法:
第一个问题的方法:用区域去做识别。这个方法在目标检测和语义分割上都很成功。
第二个问题的方法:先在大的数据集上预训练模型,然后在小的数据集上微调。这是文章的第二个贡献。

R-CNN的网络结构

论文学习《Rich feature hierarchies for accurate object detection and semantic segmentation》
上图是R-CNN网络结构的示意图,第一步是输入图片;第二步是提取候选区域;第三步是在候选区域上用CNN计算特征;第四步是用SVM对候选区域分类。
其中:
1.候选区域采用选择性搜索方法产生。
2.特征抽取采用的是AlexNet,由于AlexNet的输入大小是固定的,而候选区域的大小是任意的,所以作者强行把候选区扭曲到满足AlexNet输入的大小。
3.对于分类后的输出区域,用非极大值抑制的办法剔除与得分最高的区域IoU大于阈值的区域。

实验

论文学习《Rich feature hierarchies for accurate object detection and semantic segmentation》
上图比较了R-CNN与四个baseline在VOC 2010 test上的表现,对比使用相同候选区算法的UVA有了从35.1%到50.2%mAP的提升。其中R-CNN BB是增加了bounding boxs回归的R-CNN。

相关文章: