【论文快读】Faster RCNN

链接：https://arxiv.org/pdf/1506.01497.pdf
作者：Shaoqing Ren等
摘要：
【论文快读】Faster RCNN
本文主要解决了Fast RCNN中通过CPU运行selective search较慢的问题，转而提出RPN，借助GPU加速运行时region的提取。其detection同RCNN。下文以ZFNet的预训练模型为例。

我们知道detection问题中一个很重要的痛点是如何处理不同的size（包括scale和aspect ratio两方面）。之前的方案包括将图片变换成不同的scale输入或者使用不同大小的filter。
【论文快读】Faster RCNN
本文作者借助RPN的全卷积特性，对任意大小的图片提取feature map。该feature map的size~2400，具有256个在channel。在feature map上滑动 $n\times n$ 的卷积层，产生256d的向量对应 $k$ 个不同大小的anchor(这里k是9)，把256d向量分别送入 $1\times 1$ 的 $reg$ 头和 $cls$ 头，得到 $4k$ 个box的坐标和 $2k$ 个是否包含对象的概率。
【论文快读】Faster RCNN

图来自https://blog.csdn.net/hunterlew/article/details/71075925

对于上文的输出，选取IoU较小的anchor作为负样本，选取IoU较大的anchor作为正样本，忽略IoU居中的样本。这样便能借助ground truth使用SGD训练了。loss函数不难，不再赘述。需要注意的是这里求和的对象是经过处理之后的正负样本。
【论文快读】Faster RCNN
这里介绍完了RPN，提出regon之后的分类问题和RCNN大同小异，不再赘述。