【论文学习笔记003】Faster RCNN

题目	Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
作者	Shaoqing Ren & Kaiming He & Ross Girshick & Jian Sun
年份	2015
期刊	NIPS
论文地址	https://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf
项目地址	https://github.com/rbgirshick/py-faster-rcnn

【论文学习笔记003】Faster RCNN

单个RPN网络结构图如上所示。
首先，输入任意大小的图片，利用ZF或VGG16网络的部分卷积层产生原始图片的特征图；
其次，用nxn的滑动窗口在特征图上滑动扫描，每个滑窗位置通过卷积层映射到一个低维的特征向量(ZF:256；VGG:512)，然后采用ReLU**函数，同时为每个滑窗位置考虑k(k=9)种可能的参考窗口(anchors)，因此，每个滑窗位置最多可预测9个区域建议(超出边界的不考虑)；
最后，低维特征向量输入两个并行的卷积层(reg窗口回归层，cls窗口分类层)，分别产生bbox和分类得分，其中reg输出4k个参数(x,y,w,h)，cls输出2k个参数(前景概率，背景概率)

【论文学习笔记003】Faster RCNN

anchors示意图如上所示
anchors是一组大小固定的参考窗口，有三种尺度(128x128，256x256，512x512)和三种长宽比(1:1，1:2，2:1)
根据图像大小计算滑窗中心点对应原图区域的中心点，通过中心点和大小就可以得到滑窗位置和原图位置的映射关系，由此原图位置并根据与ground truth重复率贴上正负标签，让RPN学习该anchor是否有物体
anchors方法具有平移不变性，即图像中平移了物体，窗口建议也会平移；同时这种方式减少了模型大小，输出层512x(4+2)x9个参数(512是前一层特征维度，4和2分别是bbox参数及前景背景概率，9是参考窗口个数)，较小的参数在较小的数据集上能降低过拟合的风险

RPN训练时对正样本有两种定义：一是与ground truth box有最大的IOU的anchors作为正样本；二是与ground truth box的IOU大于0.7的作为正样本
RPN训练定义的负样本为与ground truth box的IOU小于0.3的样本；其余的不参与训练
RPN训练的loss函数如下式所示。
$L\left(\left\{p_{i}\right\},\left\{t_{i}\right\}\right)=\frac{1}{N_{d s}} \sum_{i} L_{c l s}\left(p_{i}, p_{i}^{*}\right)+\lambda \frac{1}{N_{r e g}} \sum_{i} p_{i}^{*} L_{r e g}\left(t_{i}, t_{i}^{*}\right)$
其中，i表示mini-batch中第i个anchor， $p_{i}$ 表示第i个anchor是前景的概率，当第i个anchor是前景时 $p_{i}^{*}$ 为1反之为0， $t_{i}$ 表示bbox坐标， $t_{i}^{*}$ 表示ground truth box的坐标。
坐标的4个参数如下式所示。
$\begin{aligned} t_{\mathrm{x}}=\left(x-x_{\mathrm{a}}\right) / w_{\mathrm{a}}, & t_{\mathrm{y}}=\left(y-y_{\mathrm{a}}\right) / h_{\mathrm{a}}, \quad t_{\mathrm{w}}=\log \left(w / w_{\mathrm{a}}\right), \quad t_{\mathrm{h}}=\log \left(h / h_{\mathrm{a}}\right) \\ t_{\mathrm{x}}^{*}=\left(x^{*}-x_{\mathrm{a}}\right) / w_{\mathrm{a}}, \quad t_{\mathrm{y}}^{*}=\left(y^{*}-y_{\mathrm{a}}\right) / h_{\mathrm{a}}, & t_{\mathrm{w}}^{*}=\log \left(w^{*} / w_{\mathrm{a}}\right), \quad t_{\mathrm{h}}^{*}=\log \left(h^{*} / h_{\mathrm{a}}\right) \end{aligned}$
其中， $x, x_{\mathrm{a}}, \text x^{*}$ 分别来自于预测框，anchor框以及ground truth框

【论文学习笔记003】Faster RCNN

传统方法是训练一个能检测物体的网络，然后对整张图片进行滑窗判断，由于无法判断区域建议的尺度和长宽比，所以需要多次缩放，这样找出一张图片有物体的区域就会很慢；RPN网络的滑窗是在特征图上进行，维度降低了很多倍。