R-CNN略读 - 爱码网

题目：Rich feature hierarchies for accurate object detection and semantic segmentation
第一作者：Ross Girshick 大佬 UC Berkeley
发表：CVPR2014

这篇文章应该是受AlexNet的启发，进而想把CNN的强泛化与特征提取的能力应用到目标检测和语音分割上面，结果显然获得了巨大的成功，在PASCAL上的mAP达到了史无前例的53.3%，同时还发现在训练数据较小的时候，可以让网络在另外一个数据集上训练，然后在小数据集上fine-tune，这个在现在已经成为常规操作了。
R-CNN略读
网络的结构为selective research(ss) + CNN + 一系列SVM分类器

ss是为了提取出region proposals，输入一张input image，ss从中提取出多个（论文里是2k）region proposals，经过reshape成为warped region送入CNN产生特征向量，最后送入SVM进行分类。

其中产生region proposal的方法有很多种，比如文中提到的objectness, ss, CPMC等等，这里采用ss主要是为了和之前的检测方法进行对比，不知道采用其他的方法会不会效果更好，ss算法可参考下文：
https://blog.csdn.net/u011436429/article/details/80277633
CNN的设计参考论文就好了，然后是SVM，下面这篇博文写的不错：
https://zhuanlan.zhihu.com/p/31886934，这里采用SVM感觉有点赘余，作者似乎在后面也把SVM去掉了

尽管在object detection上取得了巨大的成功，不过可以发现，提取region proposals并分别送入CNN的做法是比较耗费资源且违反常识的，同样是这位大佬显然也想到了这个问题，并在下一篇论文Fast R-CNN中给出了解答，现在有点怀疑他是不是为了多发一篇论文（笑