如何将 tesseract-ocr 与 tika 集成？答案

【问题标题】：How to integrate tesseract-ocr with tika?如何将 tesseract-ocr 与 tika 集成？
【发布时间】：2015-04-13 11:02:10
【问题描述】：

我需要集成 tesseract-ocr，它将扫描的图像转换为 pdf 为文本。

已经有 tesseractOCRParser 可用。

但是没有给出调用方法。

当我尝试使用 tesseract-ocr 引用路径构建 tika 时，出现以下错误

结果：

Failed tests:   
testNoConfig(org.apache.tika.parser.ocr.TesseractOCRConfigTest): 
Invalid default tesseractPath value expected:<[]> but was: 
<[/home/serendio/tesseract-ocr/]>

Tests run: 569, Failures: 1, Errors: 0, Skipped: 7

谁能帮帮我？？？

或者任何其他方式来解决这个问题？？

【问题讨论】：

你安装了 Tesseract 吗？你是如何尝试调用/使用 Tika 的？
是的。我的机器里有 tesseract。通过从我的机器引用 tesseract 路径，我试图为我的系统构建 tika .jar。问题是 tika 源不是用 tesseract 源构建的。
您为什么要尝试从源代码构建 Tika？开始时，最好只下载预构建的二进制文件，至少在你习惯之前这样做

标签： tesseract apache-tika

【解决方案1】：

我认为这会有所帮助： https://wiki.apache.org/tika/TikaOCR 我遵循了本指南，并且能够轻松提取内容！我只是安装了 Tesseract，然后安装了 Tika。

使用 Tika 1.9 我很容易能够： - 直接调用本地 Tika 服务器提取内容 - 毫不费力地提取自定义应用程序中的内容（您可以使用 tika-example 项目）。

无需修改。一切开箱即用。

【讨论】：