【问题标题】:java cyrillic character recognition APIjava西里尔字符识别API
【发布时间】:2012-01-09 10:01:06
【问题描述】:

我需要一些能够从西里尔字母进行字符识别的库。 我只有一个想法将字母从西里尔字母映射到拉丁字母,但质量很差。 有人可以告诉我是否有任何库。或者这个问题的任何解决方案?

提前致谢。

【问题讨论】:

  • 从符号中识别语音?您是说 OCR 即光学字符识别?
  • 哦,对不起,可能是我错误地定义了这个问题。我的意思是像字母一样的符号。

标签: java ocr text-to-speech


【解决方案1】:

据我所知,没有本地开源 Java OCR SDK。有一些 Java API 封装了对本机接口的调用,例如,对于最流行的开源 OCR 引擎之一 - Tesseract (http://groups.google.com/group/tesseract-ocr/) - 有一些 Java 包装器,例如tesjeract (http://code.google.com/p/tesjeract/) 或 Tess4J (http://tess4j.sf.net/)。这可能对您有用,但设置起来相当困难,并且需要您自己开发图像预处理和字体训练。

另一种解决方案可能是云服务。它需要最终用户应用程序具有 Internet 连接,但它独立于您的编程语言选择和资源限制。看看ABBYY Cloud OCR SDK,它是 ABBYY 最近推出的基于云的 OCR SDK。它处于测试阶段,所以现在它完全免费使用,并且有一个随时可用的Java code samples

【讨论】:

  • 为了让图片完整我还要提一下Asprise,它只是原生Java OCR,但它不是开源的,不支持西里尔字母。事实上,我从来没有听说过它的质量好(只有这个:stackoverflow.com/a/3731291/137353),也没有看到它在任何 OCR 准确性比较中被提及。
【解决方案2】:

虽然不是Java,但说到OCR,我建议开源Ocropus系统http://code.google.com/p/ocropus/

此外,此线程讨论 Java OCR 解决方案Java OCR implementation

另外,如果您只是想要一些临时解决方案,您可以尝试 Google Docs OCR http://googlesystem.blogspot.com/2009/09/google-docs-ocr.html

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-15
    • 2014-03-14
    • 2011-12-06
    • 2023-03-26
    相关资源
    最近更新 更多