【问题标题】:How to integrate tesseract-ocr with tika?如何将 tesseract-ocr 与 tika 集成?
【发布时间】:2015-04-13 11:02:10
【问题描述】:

我需要集成 tesseract-ocr,它将扫描的图像转换为 pdf 为文本。

已经有 tesseractOCRParser 可用。

但是没有给出调用方法。

当我尝试使用 tesseract-ocr 引用路径构建 tika 时,出现以下错误

结果:

Failed tests:   
testNoConfig(org.apache.tika.parser.ocr.TesseractOCRConfigTest): 
Invalid default tesseractPath value expected:<[]> but was: 
<[/home/serendio/tesseract-ocr/]>

Tests run: 569, Failures: 1, Errors: 0, Skipped: 7

谁能帮帮我???

或者任何其他方式来解决这个问题??

【问题讨论】:

  • 你安装了 Tesseract 吗?你是如何尝试调用/使用 Tika 的?
  • 是的。我的机器里有 tesseract。通过从我的机器引用 tesseract 路径,我试图为我的系统构建 tika .jar。问题是 tika 源不是用 tesseract 源构建的。
  • 您为什么要尝试从源代码构建 Tika?开始时,最好只下载预构建的二进制文件,至少在你习惯之前这样做

标签: tesseract apache-tika


【解决方案1】:

我认为这会有所帮助: https://wiki.apache.org/tika/TikaOCR 我遵循了本指南,并且能够轻松提取内容! 我只是安装了 Tesseract,然后安装了 Tika。

使用 Tika 1.9 我很容易能够: - 直接调用本地 Tika 服务器提取内容 - 毫不费力地提取自定义应用程序中的内容(您可以使用 tika-example 项目)。

无需修改。一切开箱即用。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-10-30
    • 1970-01-01
    • 1970-01-01
    • 2018-02-25
    • 1970-01-01
    • 2014-09-21
    • 2012-02-27
    • 1970-01-01
    相关资源
    最近更新 更多