【发布时间】:2012-11-21 17:26:09
【问题描述】:
我需要对标签中的一些特定信息进行 OCR,这些标签大多是已知布局。数据来源是照片,我知道这可能很棘手。数据可以是条形码(简单)、短文本(大部分是已知单词,可以随着时间的推移不断重复学习)和数字(设置格式和长度)。
我做了一些研究,似乎 Tesseract 可以在多个平台上做我想做的事,但我有几个问题。
1) 如何仅裁剪相关标签。很久以前,我为大学课程做了一些非常基本的信号处理。我想这不是太难。有什么好的库吗?
2) 既然我知道布局,有没有办法为每个特定的部分按部分 OCR 需要什么价值?
3) 还有其他图片预处理技巧吗?
4) Tesseract 是适合这项工作的工具吗?
【问题讨论】:
标签: image-processing ocr tesseract