公式识别首先基于文字序列识别,因而主体发展与文字识别有相近之处
大多是检测+识别
检测模型大多基于Faster R-CNN SSD FCN 等通用模型针对区域候选网络 、 多目标协同训练 、 特征提取 、 非极大值抑制 、 半监督式学习等方向进行改进
字符识别,指的是对已分割出的文字区域进行识别文字内容
CRNN
( Convolutional Recurrent Neural Network)
Shi Baoguang,Bai Xiang,Yao Cong. An end - to - end trainable neural network for image-based sequence recognition and its application to scene text recognition[J] . 2015
特征提取层包含 CNN和 BLSTM,可进行端到端的训练。
RARE
( Robust text recognizer with Automatic Rectification)
Shi Baoguang, Wang Xinggang, Lyu Pengyuan, et al. Roust scene text recognition with automatic rectification CVPR2016
ESIR
ESIR: End - to - end scene text recognition via iterative image rectification CVPR2016
包含两部分,一个是迭代的文本校正网络 , 另一个是序列识别网络
端到端 检测+识别
FOT
Liu Xuebo,Liang Ding,Yan Shi,et al. FOTS: Fast oriented text spotting with a unified network CVPR2018
端到端,检测识别共享卷积,引入旋转ROI,支持倾斜
STN—OCR
paper:Christian Bartz,Yang Haojin,Christoph Meinel. STN -OCR: A single neural network for text detection and text recognition[ CVPR) ,2017
内嵌STN等同于数据增强,半监督学习,只需标注文本内容,不需要文本位置信息
Integrated Framwork
47
MORAN
48
校正自网络MORN+识别自网络ASRN。
MORN使用像素级弱监督,纠正形状
ASRN二者端到端学习,不需标记字符位置
AON
(Arbitrary Orientation Network)49 提取四个方向场景文本信息,,滤波门FG , Attention-Based解码,端到端训练
数据集
大型图文识别训练和测 试 数 据 集 如 下 :
CTW( Chinese Text in the Wild) 数 据 集 [53 ] 、
RCTW - 17( Reading Chinese Text in the Wild) 数据集 [54 ] 、
ICPR MWI 2018 挑 战 赛 数 据 集 、
Total - Text 数 据 集 [55 ] 、
Google FSNS ( 谷 歌 街 景 文 本 数 据 集 ) 数 据 集 [56 ] 、
COCO -TEXT 数据集 [57 ] 、
Synthetic Data for Text Localization 自 然 场 景 文 本 数 据 [58 ] 、
Synthetic Word Dataset、
Caffe - ocr 中 文 合 成 数 据 、
ICDAR15 数 据[59 ]、
SVT - Perspective [60 ] 数据集和
CUTE80 [61 ] 数据集等 。