链接:https://arxiv.org/pdf/1506.01497.pdf
作者:Shaoqing Ren等
摘要:
【论文快读】Faster RCNN
本文主要解决了Fast RCNN中通过CPU运行selective search较慢的问题,转而提出RPN,借助GPU加速运行时region的提取。其detection同RCNN。下文以ZFNet的预训练模型为例。

我们知道detection问题中一个很重要的痛点是如何处理不同的size(包括scale和aspect ratio两方面)。之前的方案包括将图片变换成不同的scale输入或者使用不同大小的filter。
【论文快读】Faster RCNN
本文作者借助RPN的全卷积特性,对任意大小的图片提取feature map。该feature map的size~2400,具有256个在channel。在feature map上滑动n×nn\times n的卷积层,产生256d的向量对应kk个不同大小的anchor(这里k是9),把256d向量分别送入1×11\times 1regreg头和clscls头,得到4k4k个box的坐标2k2k个是否包含对象的概率
【论文快读】Faster RCNN

图来自https://blog.csdn.net/hunterlew/article/details/71075925

对于上文的输出,选取IoU较小的anchor作为负样本,选取IoU较大的anchor作为正样本,忽略IoU居中的样本。这样便能借助ground truth使用SGD训练了。loss函数不难,不再赘述。需要注意的是这里求和的对象是经过处理之后的正负样本。
【论文快读】Faster RCNN
这里介绍完了RPN,提出regon之后的分类问题和RCNN大同小异,不再赘述。

相关文章: