在目标识别领域中,存在这样一个矛盾:分类任务要具有位置不敏感性,而检测任务要具有位置敏感性。

为缓解这一矛盾,作者提出的R-FCN网络。

【论文学习记录】R-FCN

 

 和Faster R-CNN一样,R-FCN也是基于region proposal的两级检测架构。但是为了减少计算量,作者把使用的后端网络ResNet-101的average pooling layer去掉,把前面的100层卷积层放在前面共享权重的subnetwork中,然后添加一层1 x 1 x 1024的卷积层,使该层的输出维度变成1024。在共享卷积层的最后一层网络上再接上一个卷积层。

【论文学习记录】R-FCN

R-FCN也使用了RPN,用于训练和生成proposal。Faster R-CNN的ROI pooling layer直接对ROI进行分块池化,输出用于分类和回归的特征向量。而R-FCN则是将每一个ROI划分成k x k个网格,池化输出每个网格的位置得分,再通过投票的方式得到ROI最后的特征向量,共k x k x (C + 1)维,C维类别数, +1是背景。这就是Position-sensitive score maps。

【论文学习记录】R-FCN

 每个类别都会产生k x k个score maps。

【论文学习记录】R-FCN

【论文学习记录】R-FCN

R-FCN的损失函数也是多目标损失,既有分类的损失,也有定位的损失。

【论文学习记录】R-FCN

 

相关文章: