ASTER:An Attentional Scene Text Recognizer with Flexible Rectification

TPAMI 2018

 

  • Introduction

  目前对于regular text的识别算法的研究,在几个regular text标准数据集icdar2003,icdar2013,svt,IIIT5k上面的state-of-art算法的识别精度已经达到95%以上。于是研究趋势开始转向识别难度更大,现实生活中更常出现的irregular text的识别上。ASTER算法和MORAN相似,分为两个子网络一个矫正网络和一个识别网络,整体是一个可训练的端到端的网络。

Text recognition算法:ASTER:An Attentional Scene Text Recognizer with Flexible Rectification

整体框架

  • Model

2.1 Rectification Network

Text recognition算法:ASTER:An Attentional Scene Text Recognizer with Flexible Rectification

  这个形变网络是整合算法的核心,他是将薄板样条插值(TPS)和空间变换网络(STN)结合到一起的变换模型。TPS是一种常见的图像变换的差值方法。基本思路是:对于畸变input image和rectified ouput image找出对应的N个匹配点,应用TPS变换可以将input image 的N个点形变到output image的N个点,同时TPS就表示从input到output的图像变换,这种变化相当于对于一个2D薄板,插入N个点,使得薄板的弯曲能量最小。而整个形变网络就是基于STN,分为Localization Network,Grid Generator和Sampler

2.1.1 Localization Network

Text recognition算法:ASTER:An Attentional Scene Text Recognizer with Flexible Rectification

 

该网络是一个回归网络输入是rezise后的照片,输出是C’(K个control points的坐标),而Rectified image的C(K个点control points坐标)的坐标是常数(分布在输出图片边框)

2.1.2 Grid Generator

Text recognition算法:ASTER:An Attentional Scene Text Recognizer with Flexible RectificationText recognition算法:ASTER:An Attentional Scene Text Recognizer with Flexible Rectification

这部分就是根据Localization Network得到的k个control points C’ 和rectified image的k个control points C的位置信息,来计算TPS变换参数(是一个2×(K+3)的矩阵)。

2.1.3 Sampler

这一部分根据上一部分得到的TPS变换,来将整个input image计算得到rectified image。

 

2.2 Recognition Network

这一部分就是常规的带有Attention机制的CRNN模型。

 

3 总结

 整个算法主要核心是在变型网络,利用了TPS变换和STN形变网络,其中涉及了比较复杂的数学公式推导。

相关文章: