【问题标题】:Do any Java OCR tools convert images of text into editable text files?是否有任何 Java OCR 工具将文本图像转换为可编辑的文本文件?
【发布时间】:2012-09-25 18:11:15
【问题描述】:

我正在从事一个项目,该项目需要拍摄文本(从任何文本的硬拷贝)并将该文本转换为文本文件。然后我想使用该文本文件来做一些不同的事情,例如提供新闻文章的超链接或允许用户编辑文档。

到目前为止,我尝试过的工具是 sourceforge.net 的 Java OCR,它适用于包中提供的图像。但是当我拍摄自己的文字时,它根本不起作用。我应该实施一些培训过程吗?如果是这样,有人知道如何实施吗?任何帮助都会大有帮助。谢谢!

【问题讨论】:

  • 刚刚遇到这个项目。不知道有没有好处。 sourceforge.net/projects/tcrneuroph
  • 有趣。自从这个问题以来,我已经走了很长一段路,最终下载了 VirtualBox 并在其上运行了 GOCR。但是虚拟机本身就有很多问题!主怜悯。

标签: java text ocr edit


【解决方案1】:

我有一个 java 应用程序,我最终决定使用 Tesseract OCR,然后使用 Runtime.exec() 调用它。也许不是您需要的答案,但以防万一您没有考虑过。


编辑 + 响应评论回复添加的代码

  • 在 Windows 安装中,我认为我能够使用安装程序,或解压缩现成的二进制文件。
  • 在 Linux 服务器上,我需要自己编译 Tesseract,但如果你习惯了这种东西(gcc),这并不难;唯一的问题是对 Leptonica 的依赖也需要编译。

    // Tesseract can only handle .tif format, so we have to convert it
    ImageIO.write( ImageIO.read( new java.io.File(file.getPath())), "tif", tmpFile[0]);
    
    String[] tesseractCmd = new String[]{"tesseract", tmpFile[0].getAbsolutePath(), StringUtils.removeEnd(tmpFile[1].getAbsolutePath(), ".txt")};
    final Process process = Runtime.getRuntime().exec(tesseractCmd);
    try {
        int exitValue = process.waitFor();
        if(exitValue == 0) {
            final String extractedText = SearchableTextExtractionUtils.extractPlainText(new FileReader(tmpFile[1]));
            return extractedText;
        }
        throw new SearchableTextExtractionException(exitValue, Arrays.toString(tesseractCmd));
    } catch (InterruptedException e) {
        throw new SearchableTextExtractionException(e);
    } finally {
        process.destroy();
    }
    

【讨论】:

  • 感谢您的意见。事实证明,Tesseract 非常难以设置。你能告诉我你是如何设置的吗?此外,有关如何正确实现 Runtime.exec() 的资源会很棒。再次感谢您的帮助。
  • 这看起来很棒。我能够使用 runtime.exec 在命令行中获得一些东西,但是 tesseract 仍然没有安装。我认为原因是因为我的 Mac OS 已经过时(版本 10.5.8),并且它没有某些 linux 命令,如“make”和“sudo apt-get”。我无法下载 XCode 来获取这些命令,因为它仅适用于 10.6 及更高版本。因此,我也无法安装 gcc。您是否知道偶然可以在 10.5.8 上运行的更简单的 OCR 引擎?再次感谢你的帮助。如果你不知道,我会尝试不同的机器。
猜你喜欢
  • 2018-10-17
  • 1970-01-01
  • 1970-01-01
  • 2011-06-14
  • 1970-01-01
  • 2011-04-03
  • 2023-03-25
  • 2011-01-03
  • 1970-01-01
相关资源
最近更新 更多