【问题标题】:Using Tesseract OCR with Solr 9.1在 Solr 9.1 中使用 Tesseract OCR
【发布时间】:2023-02-01 00:55:19
【问题描述】:

我有一个运行的设置,我可以在其中提取 Solr(8.11.2 和 tika 1.27)并从 Tesseract (5.2.0) 获取 OCR。

为此,我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我现在正在尝试使用 solr 9.1 (Tika 1.28.4) 和相同的 Tesseract 安装复制设置,文件正在被提取,但我没有得到任何 OCR。

在 9.1.0 中,我在提取 jpg 文件时得到以下信息:

  "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                 "org.apache.tika.parser.jpeg.JpegParser"],

在 8.11.2 的设置中,我在提取相同的 jpg 时得到以下信息:

    "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                   "org.apache.tika.parser.ocr.TesseractOCRParser",
                   "org.apache.tika.parser.jpeg.JpegParser"],

【问题讨论】:

    标签: solr tesseract apache-tika solr9


    【解决方案1】:

    开启9.x默认开启的安全管理器,可以通过设置环境变量来实现:

    SOLR_SECURITY_MANAGER_ENABLED=false
    

    问题是 org.apache.tika.parser.ocr.TesseractOCRParser 需要对安装 tesseract 的文件夹的执行权限。

    当确定是否应该加载 TesseractOCRParser 时,它会检查它是否可以根据配置定位和调用 Tesseract,用于查看它是否可以执行外部解析器的 check 方法会捕获 SecurityException 以及其他异常,并且只返回 false 而没有任何日志记录,因此即使您打开日志记录也没有迹象表明配置有误。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多