【问题标题】:OCR few known form formats. Where to start?OCR 鲜为人知的表单格式。从哪儿开始?
【发布时间】:2014-06-17 07:03:33
【问题描述】:

我有几十种已知格式的文件的照片/扫描件。每个文档都包含一些已知属性(日期/时间、名称和项目列表)。

您能否建议从哪些应用程序/库开始(在 Objective)C/C++ 中? OpenCV 能做到吗? OCR 呢? OCR 的布局识别?

谢谢!

附:请建议如何改写我的帖子

附言我找到了一些很有前途的工具(带有 iOS 示例):https://code.google.com/p/tesseract-ocr/https://github.com/robmathews/OCR-iOS-Example

【问题讨论】:

  • 请评论为什么你投了反对票,这有助于改进:(

标签: opencv ocr tesseract image-scanner


【解决方案1】:

要检测文本在页面上的位置,我建议使用 OpenCV 来执行此操作,然后将文本区域发送到 tesseract。

查找文字:

腐蚀图像

查找轮廓

获取轮廓的边界框

这些边界框应包含文本或徽标/图片。

【讨论】:

  • 您可能还想使用标准来拒绝某些框,例如非常小的框或非常大的框。您可以通过检查轮廓的面积来做到这一点。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-10-21
  • 1970-01-01
  • 1970-01-01
  • 2011-03-05
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多