Faster R-CNN阅读重点
Introduction
Faster R-CNN在Fast R-CNN的基础上提出了RPN网络来生成感兴趣区域,RPN和Fast R-CNN共享前面的卷积,所以RPN几乎是一个cost-free的方法,并且速度上也较之前的selective search要快很多。
Faster R-CNN Detection System
Faster R-CNN的检测流程就是先输入一张图片,然后卷积之后得到特征图,将特征图输入到RPN网络中生成感兴趣区域(锚点框),然后接下来就是Fast R-CNN的步骤了。
RPN
RPN网络在特征图上的每个单元生成k个锚点框(论文中是9个,由3种不同尺度大小和不同长宽比组合成的),然后是一个33的卷积,再接着就是2个11的卷积,左边是为了区分锚点框是前景还是后景,所以它针对每个特征单元的输出是2k个分数,而右边是一个回归器,输出的是x,y,w,h,所以它是4k。
Multi-Scale Anchors as Regression References
关于解决多尺度问题,论文中提到了3种方法。第一种就是输入不同尺度的图片,第二种是使用不同尺度大小的过滤器,通常这2种方法是结合用的,还有一种就是Faster R-CNN中用到的:每个锚点生成几个不同尺度的锚点框。
RPN loss function
RPN的loss函数也是采用多任务损失,分为分类损失和定位损失,当区域是后景,则pi*为0,当区域是前景,则pi*为1。
Bounding box regression
这个是bounding box回归的转换公式,上面2行是锚点框和预测框之间的转换,下面2行是锚点框和真实框之间的转换。
Sampling strategy
Faster R-CNN采用的抽样策略是每个mini batch从一张图片中抽样,抽取128个正样本锚点框和128个负样本锚点框。
Results
Test on VOC 2007, 2012
测试的时候RPN只保留了300个候选区域,而Selective Search保留了约2000个候选区域,但是RPN最后的表现还是比Selective Search要好。
Test on coco
在coco数据集上,Faster R-CNN的精度也比Fast R-CNN要高。