【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

Perface

最近比较好奇场景文本检测中Size较大、较长的文本行的检测问题，于是去调查了ICDAR2017MLT数据集检测结果，发现目前开源的最好结果是云从科技的“Pixel-Anchor”，竞赛结果达到了74.54%，小编非常好奇究竟是什么神仙操作能达到这么好的结果，于是找到论文原文打算一探究竟（虽然论文中MLT的结果只有68.1%，但IC2015达到了87.68%），强自有强的道理。

文章中操作比较多，我会尽量寻找一种方式理清思路、让本文通俗易懂。作者结合了Pixel-based以及Anchor-based方法各自的优势，因此叫Pixel-Anchor（这是我猜的）

论文原文链接：https://arxiv.org/abs/1811.07432v1

Abstract

end-to-end trainable，包括语义分割和SSD的结合（通过共享特征）、以及anchor-level的注意力机制，来检测多方向的文本
为了能检测更大范围Size和Aspect Ratio的文本，在语义分割部分，作者结合FPN和ASPP来作为encoder-decoder的结构
测试阶段没有复杂的后处理，只需要进行“Fusion NMS”
在IC2015，达到87.68%，10FPS，for 960*1728 resolution图片

1.1 Motivation

【论文解读】Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks — Pixel-based and Anchor-based methods

当前文本检测算法主要分为Pixel-based以及Anchor-based的，但是这两种方式都有drawbacks
- Pixel-based的方法，有高precision，但是低recall：
  - 基于Pixel级别的精细特征，使得precision更高
  - 对于small texts来说，Pixel-level的feature太过于sparse（稀疏），所以对于小文本recall不高。
- Anchor-based的方法，有低precision，但是高recall
  - 低precision是因为anchor是基于文本整体的粗粒度特征，而不是基于Pixel级别的精细特征，它的精度往往不如pixel-level的检测
  - 高recall是因为基于anchor的方法对于文本的size不敏感。
  - 另外，基于anchor的方法对于“大角度的密集文本块”会造成“Anchor Matching Dilemma”（锚匹配困境，后文有解释）。
- 无论是Pixel-based还是Anchor-based，对于检测“long Chinese texts”的效果都不太好。
因此，作者的做法：
- 结合Pixel-based方法高准确率的优势以及Anchor-based方法高召回率的优势：
  - 将Pixel-based方法得到的Segmentation heat map用来指引Anchor-based methods，使得anchor based方法在获得高检出率的同时，也可以获得高精度
  - 对anchor进行修剪，只保留small、long的anchor，同时去除Pixel-based方法对于small texts的预测
- 为了能预测更大范围尺度和长宽比的文本：
  - 结合FPN和ASPP，在1/16Size的特征图上做ASPP来提高RF（感受野Receptive Field），而且只在1/16的图上做ASPP是low-cost的
  - 另外，作者还设计了一个网络Adaptive Predictor Layer（APL），针对不同层级的特征所对应的感受野范围，调整锚的长宽比，卷积核的形状以及锚的空间密度，以更高的效率更好的适应变化的文本尺度、长宽比。

1.2 Contributions

Pixel-Anchor，通过特征共享（由anchor-level attention mechanism实现）来结合Pixel-based方法和Anchor-based方法，来检测文本，最后通过作者提出的“Fusion NMS”获得检测结果
在SSD的基础上提出Adaptive Predictor Layer（APL），来更好的检测尺度、长宽比多变的文本，对于long text lines的效果很好
该模型可以end-to-end trainable，提高了速度和精度（即使在low resolution inputs的情况下，也能得到不错的效果）