ASTER:An Attentional Scene Text Recognizer with Flexible Rectification
TPAMI 2018
- Introduction
目前对于regular text的识别算法的研究,在几个regular text标准数据集icdar2003,icdar2013,svt,IIIT5k上面的state-of-art算法的识别精度已经达到95%以上。于是研究趋势开始转向识别难度更大,现实生活中更常出现的irregular text的识别上。ASTER算法和MORAN相似,分为两个子网络一个矫正网络和一个识别网络,整体是一个可训练的端到端的网络。
整体框架
- Model
2.1 Rectification Network
这个形变网络是整合算法的核心,他是将薄板样条插值(TPS)和空间变换网络(STN)结合到一起的变换模型。TPS是一种常见的图像变换的差值方法。基本思路是:对于畸变input image和rectified ouput image找出对应的N个匹配点,应用TPS变换可以将input image 的N个点形变到output image的N个点,同时TPS就表示从input到output的图像变换,这种变化相当于对于一个2D薄板,插入N个点,使得薄板的弯曲能量最小。而整个形变网络就是基于STN,分为Localization Network,Grid Generator和Sampler
2.1.1 Localization Network
该网络是一个回归网络输入是rezise后的照片,输出是C’(K个control points的坐标),而Rectified image的C(K个点control points坐标)的坐标是常数(分布在输出图片边框)
2.1.2 Grid Generator
这部分就是根据Localization Network得到的k个control points C’ 和rectified image的k个control points C的位置信息,来计算TPS变换参数(是一个2×(K+3)的矩阵)。
2.1.3 Sampler
这一部分根据上一部分得到的TPS变换,来将整个input image计算得到rectified image。
2.2 Recognition Network
这一部分就是常规的带有Attention机制的CRNN模型。
3 总结
整个算法主要核心是在变型网络,利用了TPS变换和STN形变网络,其中涉及了比较复杂的数学公式推导。