照片OCR流水线


照片OCR是一种可以识别图片中的文字内容的技术。

吴恩达机器学习笔记——照片OCR

照片OCR的流水线可以分为三步:

  1. 文本识别
  2. 字符分割
  3. 字符分类识别

文本识别


  • 给定一组正负样本进行模型训练,从照片中识别出可能是文字的区域,在结果图中,灰度越低,说明判断为文本的概率越大。

吴恩达机器学习笔记——照片OCR

  • 去除掉一些形状不合理的部分。使得预判为文本的地方扩大、相连。

吴恩达机器学习笔记——照片OCR


滑动窗口


使用一个以一定步长移动的框,对框住的区域使用模型判断是否为正样本。

在本例中,当框被判断为y=1时,就说明是字母切割区域,在中间画一条切割竖线。

吴恩达机器学习笔记——照片OCR


字符分类识别


吴恩达机器学习笔记——照片OCR

使用字符训练集对模型进行训练,之后用于字符图片的识别。

 


相似案例


图片中行人的识别:

引入行人的正负样本训练集

吴恩达机器学习笔记——照片OCR

由于不管行人距离镜头的远近,行人的长宽比类似,我们使用滑动窗口的方式,使用一定步长的不同大小的方框对图片进行扫描,将框内内容缩放或扩大到和训练集的比例一致后放入模型判断,当前内容是否为一个行人。吴恩达机器学习笔记——照片OCR

吴恩达机器学习笔记——照片OCR

最终得到识别结果。

吴恩达机器学习笔记——照片OCR

相关文章:

  • 2021-06-04
  • 2021-10-03
  • 2021-06-30
  • 2021-07-31
  • 2021-11-23
  • 2021-07-04
猜你喜欢
  • 2021-06-17
  • 2021-11-30
  • 2022-12-23
  • 2021-04-06
  • 2021-04-11
相关资源
相似解决方案