随着深度学习的发展,计算机视觉领域涌现出了很多端到端模型,图像、场景文字检测识别模型也在此基础上有个长远发展。

1、基础网络框架

   在CV领域,图像识别、检测的基础是特征提取,经典的图像分类模型包括VGGNet,ResNet、InceptionNet(GoogleNet)、DenseNet、Inside-Outside Net、Se-Net等,这些网络可以作为基础网络(通用网络模型),对输入图像进行特征提取。

(1)FCN网络:全卷积网络,Fully convolution network,擅长提取图像细节特征

        全卷积网络是不使fc全连接层的基础网络,最初用于语义分割。 

        特点:用反卷积、上池化、亚像素卷积层等手段进行上采样操作,将特征矩阵恢复。

        FCN网络最后一层特征图的像素分辨率较高,在场景文字识别中需要依赖清晰的文字笔画来区分不同的字符(特别是汉字),FCN网络很适合用来提取图片上文本特征。FCN用于文字识别时,最后一层特征图每个像素被分成文字行(前景)和非文字行(背景)两个类别。

(2)STN网络:空间变换网络,Spatial Transformer Networks,擅长做图形矫正

      对输入特征图进行空间位置矫正得到输出特征图,此处不详细展开。

2、检测网络框架

检测网络按照训练过程可分为one-stage和two-stage方法,按照是否需要anchor可分为anchor-based和anchor-free方法。

(1)Faster RCNN网络-two-stage

        RPN网络寻找proposal建议框,ROI pooling为多种尺寸参考框产生归一化固定尺寸区域特征,分类、回归网络。

        损失函数:多目标损失函数,RPN分类(前后景)、回归损失函数,最后的分类(种类)和坐标回归loss。

        优化目标:通过loss反向传播,调节候选框坐标,增大与标注对象bbox的IOU。

(2)SSD网络 -One stage

        SSD全称Single Shot MultiBox Detector,2016年被提出,全卷积目标检测算法。

        特点:多尺度融合,在不同尺度的feature maps上生成anchor,进行分类和回归,NMS最大值抑制得到最终结果。

(3)YoloV3 - One stage

(4)CenterNet - anchor free

3、文本检测模型

目的:在图片中,准确找出文字所在区域。

存在问题:直接套用目标检测通用方法如Faster RCNN系列,SSD系列,Yolo系列等方法,文字检测效果不佳。

原因:(1)长宽比大:相比于常规的目标检测物体,文字检测行长度大,长宽比范围大。

(2)文本行具有方向性:常规物体bbox四元组描述(x,y,w,h)或(x1,y1,x2,y2)描述方式信息量不充足。

(3)自然场景复杂,如某些局部图像与字母形状类似,需要参考图像全局信息避免误报。

(4)文本行弯曲,手写字体变化模式多。

(5)背景干扰多。

改进方向:近年来,很多基于深度学习的方法被提出。从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。

改进方法:

(1)CTPN:用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。
(2)RRPN等方案中,文本框标注采用BBOX +方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。
(3)DMPNet等方案中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。
(4)SegLink  将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。
(5)TextBoxes等方案中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。
(6)FTSN方案中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
(7)WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。

4、文本检测(detection)代表模型详述

(1)CTPN模型   Detecting Text in Natural Image with Connectionist Text Proposal Network

          目前流传最广,影响最大的开源文本检测模型,可以检测水平或微斜的文本行。

       前端:VGG16作为backbone提取字符的局部图像特征

       中间:BLSTM提取字符序列上下文特征

       后端:FC全连接层,经预测分支输出各个文字块的bbox坐标值和分类结果概率值(置信度)。

       数据后处理:合并相邻的小文字块为文本行。

              OCR文字识别,即STR场景文本检测 网络模型发展概述

(2)RRPN模型 Arbitrary-Oriented Scene Text Detection via Rotation Proposals

      RRPN, Rotation Region Proposal Networks 基于旋转区域候选网络的方案。

      将文本行旋转因素(角度倾斜)嵌入区域候选网络,如Faster RCNN。

      标签:文本区域ground truth为(x,y,w,h,θ)旋转边框,(x,y)为文本框中心。

      训练:首先生成含有文本方向角的倾斜框;bbox回归,学习文本方向角。

      创新点:提出RROI,旋转感兴趣区域池化层,将任意方向的区域建议先划分成子区域,然后对这些子区域分别做max pooling、并将结果投影到具有固定空间尺寸小特征图上。

                         OCR文字识别,即STR场景文本检测 网络模型发展概述OCR文字识别,即STR场景文本检测 网络模型发展概述

(3)FTSN模型  Fused Text Segmentation Networks for Multi-oriented Scene Text Detection

         FTSN(Fused Text Segmentation Networks)模型使用分割网络支持倾斜文本检测。

       backbone: ResNet-101,多尺度融合

       标签:文本区域bbox,像素掩码

       训练:像素预测和边框预测多目标联合训练。

       创新点:提出Mask-NMS,基于文本实例间像素级重合度,代替传统基于bbox重合度的NMS方法。

(4)DMPNet 模型  Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection

         DMPNet(Deep Matching Prior Network)使用四边形(非矩形)来更紧凑地标注文本区域边界,对倾斜文本块检测效果更好。

       ① anchor的产生:文本区域proposal,除正方形,还有倾斜四边形。

              OCR文字识别,即STR场景文本检测 网络模型发展概述

      ② 基于像素点采样的Monte-Carlo方法:快速计算四边形候选框与标注框间的面积重合度

      ③ 计算四个顶点坐标到四边形中心点的距离,将它们与标注值相比计算出目标loss。文章中推荐用Ln loss?来取代L1、L2 loss,从而对大小文本框都有较快的训练回归(regress)速度。

(5)EAST 模型 An Efficient and Accurate Scene Text Detector

    多尺度融合,像素级文本块预测

    标签:支持两种,旋转矩形框(x,y,w,h,θ)和任意四边形

    训练:对于旋转矩形框标注,训练时会对特征图中每个像素预测其到矩形框四边的距离,以及矩形框的方向角。

              对于四边形标注,训练时会对特征图中每个像素预测其到四个顶点的坐标差值。

根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。

(6)Seglink模型 Detecting Oriented Text in Natural Images by Linking Segments

先将每个单词切割为更易检测的有方向的小文字块(segment),然后用邻近连接(link )将各个小文字块连接成单词。

(7)Pixel Link模型 Detecting Scene Text via Instance Segmentation

 FCN全卷积网路,backbone VGG16。

首先,借助于CNN 模块执行两个像素级预测:一个文本二分类预测,一个链接二分类预测。接着,用正链接去连接邻居正文本像素,得到文字块实例分割结果。然后,由分割结果直接就获得文字块边框, 而且允许生成倾斜边框。

(8)Textboxes/Textboxes++模型  TextBoxes: A Fast Text Detector with a Single Deep Neural Network

                                                           TextBoxes++: A Single-Shot Oriented Scene Text Detector

Textboxes 基于SSD,端到端,速度快。

使用长宽比大的anchor初始值;长条形卷积核代替常见的正方形卷积核;在垂直方向增加候选框,防止漏检文本行;在多尺度特征图上并行预测文本框,检测不同大小的字符块;NMS过滤。

Textboxes++是Textboxes的升级版本,目的是增加对倾斜文本的支持。

标注:由原始的文本框标注方式,改为旋转矩形框和不规则四边形。

对设置anchor长宽比、特征图卷积核形状做出调整。

(9)wordSup模型  WordSup: Exploiting Word Annotations for Character based Text Detection

存在问题:在数学公式图文识别、不规则形变文本行识别等应用中,字符级检测模型是一个关键基础模块。由于字符级自然场景图文标注成本很高、相关公开数据集稀少,导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。

解决方法:WordSup提出了一种弱监督的训练框架, 可以文本行、单词级标注数据集上训练出字符级检测模型。

                                    OCR文字识别,即STR场景文本检测 网络模型发展概述

 

5、文本识别(Rcognition)模型

目标:从已分割出的文字区域中识别出文本内容

(1)CRNN模型  An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

CRNN,Convolutional Recurrent Neural Network,目前较为流行的文本识别模型。

特点:CNN特征提取层,BLSTM序列特征提取层,端到端联合训练,BLSTM和CTC学习字符图像中的上下文关系。

(2)RARE 模型 Robust Scene Text Recognition with Automatic Rectification

      识别变形的图像文本时效果很好。

模型预测将输入图像首先要被送到一个空间变换网络中做处理,矫正过的图像然后被送入序列识别网络中得到文本预测结果。

                       OCR文字识别,即STR场景文本检测 网络模型发展概述

 

6、端到端 end-to-end模型

    训练一个网络,同时完成文字的检测和识别,Detection + Recognition

(1)FOTS Rotation-Sensitive Regression:FOTS: Fast Oriented Text Spotting with a Unified Network

     检测和识别共享卷积特征层;引入旋转感兴趣目标于RROI(ROIRotate);可以从卷积特征图中产生定向文本区域,支持倾斜文本行检识别。

                       OCR文字识别,即STR场景文本检测 网络模型发展概述

                     

                                OCR文字识别,即STR场景文本检测 网络模型发展概述

(2)STN-OCR模型  STN-OCR: A single Neural Network for Text Detection and Text Recognition

    在它的检测部分嵌入了一个空间变换网络(STN)来对原始输入图像进行仿射(affine)变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。作者也提到,如果从头开始训练则网络收敛速度较慢,因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。

 

参考:https://zhuanlan.zhihu.com/p/38655369

 

 

相关文章:

  • 2021-12-25
  • 2021-09-18
  • 2021-12-18
  • 2021-07-06
  • 2021-12-16
  • 2022-12-23
  • 2021-06-15
猜你喜欢
  • 2021-09-14
  • 2021-06-27
  • 2021-06-02
  • 2021-04-06
  • 2021-04-18
  • 2021-12-04
相关资源
相似解决方案