Abstract

      神经网络中信息传递的方式很重要。本文提出 PANet 网络来增强 proposal-based 实例分割的信息流。具体的,提出bottom-up path augmentation,adaptive feature pooling和complementary branch。

1.Introduction

      Mask R-CNN是一个简单有效的实例分割模型,FPN通过一个具有侧连接的top-down path来传递高级语义特征,并层级提取内部特征。Dense connection,Residual connection,split-transform-merge等模型策略都十分有效。

Our Finding: 我们发现Mask RCNN 中的信息流还可以优化。具体来说,低级的特征对large instance的识别有帮助,但是从底层到高层的path太长以至于很难得到精确的位置信息(广义的位置信息,包括定位和轮廓信息)。每一个proposal都对应于一个feature level。这可能会丢失其他level的信息。

Our Contributions: 首先,提出一个bottom-up path来缩短information path,通过低层次具有的精确地位置信息来增强特征金字塔。其次,提出adaptive feature pooling 来恢复proposal 和 all feature levels 之间破损的信息。最后,提出一个fc分支和FCN分支融合,共同预测mask.

2.Related Work

Instance Segmentation: Two stream for instance segmentation,一种是 proposal-based,一种是segmentation-based

Multi-level Features: SharpMask 融合不同的特征图进行分割。FCN,U-Net使用skip connections来融合不同层的信息。不同于TDM,使用融合的具有最大分辨率的特征图进行pool,FPN,SSD,DSSD,都是把proposals在合适的层进行inference。我们将FPN当做baseline。ION模型concate不同的层的feature grids,可以得到更好的结果但是需要normalization , concatenation , dimension reduction等操作。我们的方法会更简单。

Larger Context Region: Feature pooled from a larger region可以获得周围的环境。PSPNet和ParseNet使用Global pooling极大的提高了语义分割的效果。

 

3.Framework

论文:Path Aggregation Network for Instance Segmentation

    一个自底向上的路径来使底层的信息更好的传播,使用adaptive feature pooling 使得proposal可以获得每一个level的信息,complementary path for mask brach。

3.1 Bottom-up Path Augmentation

       高层的神经元通常对整个目标有很强的响应,而低层的神经元更容易被局部纹理,图案等**。所以在FPN网络中,增加了一个自顶向下的分支来将高层的强语义的特征传播到下层,使得所有的特征层都具有classification能力。

   我们的模型增加了一个自底向上的分支,通过传播低层次的信息增加整个特征层的分类能力。因为底层的特征对edge及instance part有很高的响应,这对准确的定位实例有很大的作用(高层特征有助于classification,底层特征有助于localization

图中的绿线即为分支,这是一个shortcut结果,少于十层,相对比于FPN网络中的红线,从底层到高层需要一百多层。

      Bottom-up结构的block如下所示:

论文:Path Aggregation Network for Instance Segmentation

      低层的通过一个卷积下采样之后和P通过逐像素的相加,最后再经过一个卷积操作。

3.2 Adaptive Feature Pooling

      在FPN网络中,proposal会根据他的尺寸将之分配到某个feature level。这会将大的proposal分配到大的feature level,小的分配到小的。虽然这样简单有效,但会带来误差,比如有可能只差10像素的相似的proposal被分配到不同的feature level上。

       高层次的特征具有更大的感受野,具有更丰富的上下文信息(语义信息),这些特征可以帮助小的proposal 获得有用的语义信息来进行预测。同理,低层次的特征具有精确的细节和位置信息,有助于大proposal的定位。所以我们从所有的level对每个proposal进行pooling操作,之后使用max operation来融合他们。

     具体的框架,首先,对每一个proposal,将其映射到不同的feature level,之后执行ROIAlign,最后是一个融合操作(element-wise max or sum)。

论文:Path Aggregation Network for Instance Segmentation

Pool层先经过一个参数层后再进行融合操作。

      我们的设计是融合in-network featurehierarchy信息而不是融合image pyramid不同的feature map的信息。

3.3 Fully-connected Fusion

      FCN层基于local receptive field和共享参数来对每一个pixel进行预测,而fc层对位置敏感,因为对每一个位置的预测都是基于不同的参数,所以fc层具有适应不同空间位置的能力,预测也是基于entire proposal 的全局信息,这有利于区分不同实例以及相同物体的不同部件。我们将会融合这两者。

      具体的框架如下所示:

论文:Path Aggregation Network for Instance Segmentation

对每一个类独立的预测了 binary pixel-wise mask,用以解耦mask和class。下面分支的第二层卷积channel缩小以减小运算量,fc层用来预测一个class-agnostic的背景/前景 mask。Mask的size设为28*28。仅使用一层fc层是怕丢失空间信息。

4.Experiments

4.1 Implementation Details

      使用image centric training策略,对每一张图片,采样512个ROI,正负比例为1:3,weight decay 为 0.0001,momentum 设为0.9。

4.2 COCO

      在AP,AP50,AP75,Aps,APm,APl上评价,image batch设置为16,图像resize到800,1000。学习率为0.02,0.002。

Multi-scale training,将长边设置为1400,短边设置为[400,1400]。

Multi-GPU synchronized batch normalization,在多gpu上应用BN。

Heavier head,使用box分类和回归共享参数的四个连续的3*3卷积层替代原来的两个fc层。

在所有的策略中,Multi-scale training 和 Multi-GPU sync BN占了一半的作用。

Adaptive feature pooling 对fusion operation不敏感,MAX和SUM的操作都可以。
Fully-connected Fusion,选择从第三个卷积层后进行SUM操作。

论文:Path Aggregation Network for Instance Segmentation

       为在COCO数据集上达到Top performance,我们还进行了,deformable convolutions,multi-scale test,horizontal flip testing,mask voting 和 box voting。使用多个模型进行融合。

 

相关文章:

  • 2021-12-18
  • 2021-05-31
  • 2021-04-26
  • 2021-04-23
  • 2021-06-14
  • 2021-12-23
  • 2021-11-07
  • 2021-05-21
猜你喜欢
  • 2021-06-24
  • 2021-10-25
  • 2021-12-15
  • 2021-06-11
  • 2021-05-05
  • 2021-04-05
  • 2022-01-15
相关资源
相似解决方案