【发布时间】:2011-09-02 06:26:39
【问题描述】:
我一直在阅读(并尝试)以前的答案中建议的 OCR 程序,但我仍然没有明确的答案。
我需要识别手写英文文本。文本将是多行,但每行只有一个或两个单词的长度。这段文字来自不同的人。我可以要求那个人提供一个培训文件(例如,带有字母和 0-9 数字),但我真的不能要求比这更复杂的培训。
我需要将识别集成为另一个 (Java) 应用程序的一部分,但解决方案不需要是 Java。我可以从 Java 中执行它并从文本文件中获取结果。
有什么建议吗?
我已经测试过 Tesseract(没有训练的糟糕结果,而且训练看起来相当复杂)。 Java OCR 看起来像是完美的解决方案(简单的培训、开源和 Java),但即使使用他们自己的示例也不能很好地工作(有人有更好的经验吗?)。 GOCR 似乎不是很活跃。
我当然更喜欢免费的解决方案,但这不是必须的(尽管我看到商业选项的问题是我必须能够将它集成到我自己的应用程序中,该应用程序将作为 SaaS 提供)
【问题讨论】:
-
手写识别和所谓的手写识别是有区别的。区别主要在于字符是否相互连接。手工填写的非连接字符广泛用于表单识别,这种技术称为ICR(与OCR和HWR相对)。
标签: ocr handwriting