Perface

       最近比较好奇场景文本检测中Size较大、较长的文本行的检测问题,于是去调查了ICDAR2017MLT数据集检测结果,发现目前开源的最好结果是云从科技的“Pixel-Anchor”,竞赛结果达到了74.54%,小编非常好奇究竟是什么神仙操作能达到这么好的结果,于是找到论文原文打算一探究竟(虽然论文中MLT的结果只有68.1%,但IC2015达到了87.68%),强自有强的道理。

        文章中操作比较多,我会尽量寻找一种方式理清思路、让本文通俗易懂。作者结合了Pixel-based以及Anchor-based方法各自的优势,因此叫Pixel-Anchor(这是我猜的)

论文原文链接:https://arxiv.org/abs/1811.07432v1

Abstract

  • end-to-end trainable,包括语义分割和SSD的结合(通过共享特征)、以及anchor-level的注意力机制,来检测多方向的文本
  • 为了能检测更大范围Size和Aspect Ratio的文本,在语义分割部分,作者结合FPN和ASPP来作为encoder-decoder的结构
  • 测试阶段没有复杂的后处理,只需要进行“Fusion NMS”
  • 在IC2015,达到87.68%,10FPS,for 960*1728 resolution图片

1.1 Motivation

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks
Pixel-based and Anchor-based methods
  • 当前文本检测算法主要分为Pixel-based以及Anchor-based的,但是这两种方式都有drawbacks
    • Pixel-based的方法,有高precision,但是低recall:
      • 基于Pixel级别的精细特征,使得precision更高
      • 对于small texts来说,Pixel-level的feature太过于sparse(稀疏),所以对于小文本recall不高。
    • Anchor-based的方法,有低precision,但是高recall
      • 低precision是因为anchor是基于文本整体的粗粒度特征,而不是基于Pixel级别的精细特征,它的精度往往不如pixel-level的检测
      • 高recall是因为基于anchor的方法对于文本的size不敏感。
      • 另外,基于anchor的方法对于“大角度的密集文本块”会造成“Anchor Matching Dilemma”(锚匹配困境,后文有解释)。
    • 无论是Pixel-based还是Anchor-based,对于检测“long Chinese texts”的效果都不太好。
  • 因此,作者的做法:
    • 结合Pixel-based方法高准确率的优势以及Anchor-based方法高召回率的优势:
      • 将Pixel-based方法得到的Segmentation heat map用来指引Anchor-based methods,使得anchor based方法在获得高检出率的同时,也可以获得高精度
      • 对anchor进行修剪,只保留small、long的anchor,同时去除Pixel-based方法对于small texts的预测
    • 为了能预测更大范围尺度和长宽比的文本:
      • 结合FPN和ASPP,在1/16Size的特征图上做ASPP来提高RF(感受野Receptive Field),而且只在1/16的图上做ASPP是low-cost的
      • 另外,作者还设计了一个网络Adaptive Predictor Layer(APL),针对不同层级的特征所对应的感受野范围,调整锚的长宽比,卷积核的形状以及锚的空间密度,以更高的效率更好的适应变化的文本尺度、长宽比。

1.2 Contributions

  • Pixel-Anchor,通过特征共享(由anchor-level attention mechanism实现)来结合Pixel-based方法和Anchor-based方法,来检测文本,最后通过作者提出的“Fusion NMS”获得检测结果
  • 在SSD的基础上提出Adaptive Predictor Layer(APL),来更好的检测尺度、长宽比多变的文本,对于long text lines的效果很好
  • 该模型可以end-to-end trainable,提高了速度和精度(即使在low resolution inputs的情况下,也能得到不错的效果)

1.3 Other points of view

  • 文本的笔画特征(stroke characteristics)明显,所以很容易把文本pixel从background中分割出来。
  • EAST和FOTS虽然有很不错的效果,但是他们能够预测的最大文本尺寸是与网络的RF成正比的,因此受限于感受野,他们对于长文本的效果并不好
  • Pixel Linking的方法虽然不受感受野的限制,能够检测“very long text lines”,但是该类方法需要复杂的后处理过程,而且很容易受到复杂背景干扰
  • Textboxes++ fails to deal with “dense and large-angle texts”
  • 为了解决“dense and large-angle texts”问题,DMPNet和RRPN提出了多方向anchor,但是极大增加了anchor数量,另外,在计算任意两个四边形intersection的时候,特别耗时(尤其是anchor数量非常多的时候)
  • Anchor-based methods学习的是描述文本实例的抽象特征,而不是pixel-level的笔画特征。因此Anchor-level的抽象特征就需要face more diversity,因此,就会有更多的false positive,但anchor对于文本size更鲁棒,因此检测小文本。

1.4 Definition of “Anchor Matching Dilemma”

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

  • Textboxes++用水平的矩形作为anchor,当遇到两个挨得很近的“large-angle”的文本实例时,它很难决定当前的anchor应该match哪个文本实例,就是所谓的“Anchor Matching Dilemma”,使得网络对于密集大角度文本的效果不好。

 

2.1 Overall Architecture

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

  • 基于Resnet-50,在做分类之前的特征Size是32
  • 对于pixel-based method的语义分割部分,用的是Size为16的更加dense的特征,而且增加了Rate为2的空洞卷积
  • 1/4,1/8,1/16,的特征被Pixel-based和Anchor-based方式共享
  • Segmentation heat map被fed to Anchor-based method,通过anchor-level的注意力机制
  • 没有复杂的后处理,只有一个“Fusion NMS”

 

2.2 Pixel-based Moduls

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

  • 基于EAST做的,一共有7个通道,包括text-non text预测,4个上右下左距离,1个旋转角,还有1个Attention heat map
    • 为了得到高分辨率、高语义、高感受野的特征:结合了FPN和ASPP,把ASPP的dilation rate从{6,12,18}调整为{3,6,9,12,15,18},to “obtain a finer receptive field”;而且大部分操作是基于1:16的特征图做的,所以在保证高效的同时,也得到了更大的感受野
  • 一些细节:
  • 为了distinguish very close的文本实例,只预测“shrunk polygon”。但是对于Attention heat map来说,不采用“shrunk polygon”,所有的原始文本区域都被当做positive的文本区域
  • 分类使用了OHEM,来计算pixel classification loss,用来分类的pixel包括:512个hard negative non-text pixels,512个 random negative non-text pixels,以及所有的positive piexels。用的是交叉熵loss
  • 回归使用了OHEM,128个hard positive text pixels,以及128个random positive text pixels。采用IOU loss回归

 

2.3 Anchor-based Modules

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

  • 基于SSD进行修改,以预测large variances in size and aspect ratio的文本
  • 只用了1:4和1:16的特征,而且是Pixel-based methods共享的,为了避免too small feature maps,所以最后2个1:64的特征Size保留不变,
  • 采用1:4而不是1:8的feature,是为了加强对小目标的检测能力
  • Attention heat map通过指数级的增强,作用于1:4的feature上,使得每个pixel被映射到[1.0,e],从而在保证背景信息的同时highlight检测信息,同时也减少了小文本的假阳性检测
  • 针对APL:
    • 根据anchor的aspect ratios把他们被分为5个groups,加以不同的卷积:
      • Square anchors: aspect ratio = 1:1, convolutional filter size 3×3.
      • Medium horizontal anchors: aspect ratios = {1:2, 1:3, 1:5,1:7}, convolutional filter size 3×5.
      • Medium vertical anchors: aspect ratios = {2:1, 3:1, 5:1, 7:1}, convolutional filter size 5×3.
      • Long horizontal anchors: aspect ratios = {1:15, 1:25,1:35}, convolutional filter size 1×n.
      • Long vertical anchors: aspect ratios = {15:1, 25:1, 35:1},convolutional filter size n×1.
    • 对于long anchor来说,每个feature map的n是不同的,取决于被检测的文本行长度
      • 对于1:4的feature,我们不让他预测long anchor
      • 对于剩下的那些feature,从下到上,n分别是{33,29,15,15,15}
    • 通过APL,感受野能更好的fits文本
  • anchor-based methods输出9个通道:1个预测是正例的概率,另外8个预测相对于anchor的坐标offsets
  • 为了检测dense texts:
    • 提出“anchor density”的概念:
      • 为了更好地cover dense texts,每个anchor被duplicated with some offsets based on anchor density

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

3. Experiments

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

【另外推荐雷锋网Pixel Anchor理解】https://baijiahao.baidu.com/s?id=1617734369662915355&wfr=spider&for=pc

相关文章: