【发布时间】:2015-04-13 11:02:10
【问题描述】:
我需要集成 tesseract-ocr,它将扫描的图像转换为 pdf 为文本。
已经有 tesseractOCRParser 可用。
但是没有给出调用方法。
当我尝试使用 tesseract-ocr 引用路径构建 tika 时,出现以下错误
结果:
Failed tests:
testNoConfig(org.apache.tika.parser.ocr.TesseractOCRConfigTest):
Invalid default tesseractPath value expected:<[]> but was:
<[/home/serendio/tesseract-ocr/]>
Tests run: 569, Failures: 1, Errors: 0, Skipped: 7
谁能帮帮我???
或者任何其他方式来解决这个问题??
【问题讨论】:
-
你安装了 Tesseract 吗?你是如何尝试调用/使用 Tika 的?
-
是的。我的机器里有 tesseract。通过从我的机器引用 tesseract 路径,我试图为我的系统构建 tika .jar。问题是 tika 源不是用 tesseract 源构建的。
-
您为什么要尝试从源代码构建 Tika?开始时,最好只下载预构建的二进制文件,至少在你习惯之前这样做
标签: tesseract apache-tika