题目:Rich feature hierarchies for accurate object detection and semantic segmentation
第一作者:Ross Girshick 大佬 UC Berkeley
发表:CVPR2014

这篇文章应该是受AlexNet的启发,进而想把CNN的强泛化与特征提取的能力应用到目标检测和语音分割上面,结果显然获得了巨大的成功,在PASCAL上的mAP达到了史无前例的53.3%,同时还发现在训练数据较小的时候,可以让网络在另外一个数据集上训练,然后在小数据集上fine-tune,这个在现在已经成为常规操作了。
R-CNN略读
网络的结构为selective research(ss) + CNN + 一系列SVM分类器

ss是为了提取出region proposals,输入一张input image,ss从中提取出多个(论文里是2k)region proposals,经过reshape成为warped region送入CNN产生特征向量,最后送入SVM进行分类。

其中产生region proposal的方法有很多种,比如文中提到的objectness, ss, CPMC等等,这里采用ss主要是为了和之前的检测方法进行对比,不知道采用其他的方法会不会效果更好,ss算法可参考下文:
https://blog.csdn.net/u011436429/article/details/80277633
CNN的设计参考论文就好了,然后是SVM,下面这篇博文写的不错:
https://zhuanlan.zhihu.com/p/31886934,这里采用SVM感觉有点赘余,作者似乎在后面也把SVM去掉了

尽管在object detection上取得了巨大的成功,不过可以发现,提取region proposals并分别送入CNN的做法是比较耗费资源且违反常识的,同样是这位大佬显然也想到了这个问题,并在下一篇论文Fast R-CNN中给出了解答,现在有点怀疑他是不是为了多发一篇论文(笑

相关文章:

  • 2021-12-26
  • 2021-07-28
  • 2021-04-11
  • 2021-10-20
  • 2021-12-30
  • 2022-12-23
  • 2022-01-09
猜你喜欢
  • 2021-11-09
  • 2021-05-01
  • 2021-11-16
  • 2021-08-23
  • 2022-01-01
  • 2021-07-08
  • 2021-12-25
相关资源
相似解决方案