从照片裁剪和 OCR 标签答案

【问题标题】：Crop and OCR label from photo从照片裁剪和 OCR 标签
【发布时间】：2012-11-21 17:26:09
【问题描述】：

我需要对标签中的一些特定信息进行 OCR，这些标签大多是已知布局。数据来源是照片，我知道这可能很棘手。数据可以是条形码（简单）、短文本（大部分是已知单词，可以随着时间的推移不断重复学习）和数字（设置格式和长度）。

我做了一些研究，似乎 Tesseract 可以在多个平台上做我想做的事，但我有几个问题。

1) 如何仅裁剪相关标签。很久以前，我为大学课程做了一些非常基本的信号处理。我想这不是太难。有什么好的库吗？

2) 既然我知道布局，有没有办法为每个特定的部分按部分 OCR 需要什么价值？

3) 还有其他图片预处理技巧吗？

4) Tesseract 是适合这项工作的工具吗？

【问题讨论】：

标签： image-processing ocr tesseract

【解决方案1】：

我之前没有处理过 Tesseract。但是，我们使用了另一个名为leadtools 的第三方工具包。该工具包可以识别条形码、文本和数字，然后将结果保存为文档格式。它可以满足您的要求，因为它提供了在您要识别的文本周围绘制特定区域的方法，并且它具有一些预处理图像的方法。此外，它还提供了自动查找文件中要进行 OCR 的区域的功能。欲了解更多信息，您可以查看此Tutorial

【讨论】：

您应该提到leadtools不是免费的，或者如果您为他们工作，请进行披露