Text recognition算法：ASTER：An Attentional Scene Text Recognizer with Flexible Rectification

ASTER：An Attentional Scene Text Recognizer with Flexible Rectification

TPAMI 2018

Introduction

目前对于regular text的识别算法的研究，在几个regular text标准数据集icdar2003，icdar2013，svt，IIIT5k上面的state-of-art算法的识别精度已经达到95%以上。于是研究趋势开始转向识别难度更大，现实生活中更常出现的irregular text的识别上。ASTER算法和MORAN相似，分为两个子网络一个矫正网络和一个识别网络，整体是一个可训练的端到端的网络。

Text recognition算法：ASTER：An Attentional Scene Text Recognizer with Flexible Rectification

整体框架

Model

2.1 Rectification Network

Text recognition算法：ASTER：An Attentional Scene Text Recognizer with Flexible Rectification

这个形变网络是整合算法的核心，他是将薄板样条插值（TPS）和空间变换网络（STN）结合到一起的变换模型。TPS是一种常见的图像变换的差值方法。基本思路是：对于畸变input image和rectified ouput image找出对应的N个匹配点，应用TPS变换可以将input image 的N个点形变到output image的N个点，同时TPS就表示从input到output的图像变换，这种变化相当于对于一个2D薄板，插入N个点，使得薄板的弯曲能量最小。而整个形变网络就是基于STN，分为Localization Network，Grid Generator和Sampler

2.1.1 Localization Network

Text recognition算法：ASTER：An Attentional Scene Text Recognizer with Flexible Rectification

该网络是一个回归网络输入是rezise后的照片，输出是C’（K个control points的坐标），而Rectified image的C（K个点control points坐标）的坐标是常数（分布在输出图片边框）

2.1.2 Grid Generator

Text recognition算法：ASTER：An Attentional Scene Text Recognizer with Flexible Rectification

这部分就是根据Localization Network得到的k个control points C’ 和rectified image的k个control points C的位置信息，来计算TPS变换参数（是一个2×（K+3）的矩阵）。

2.1.3 Sampler

这一部分根据上一部分得到的TPS变换，来将整个input image计算得到rectified image。

2.2 Recognition Network

这一部分就是常规的带有Attention机制的CRNN模型。

3 总结

整个算法主要核心是在变型网络，利用了TPS变换和STN形变网络，其中涉及了比较复杂的数学公式推导。