在 Solr 9.1 中使用 Tesseract OCR答案

【问题标题】：Using Tesseract OCR with Solr 9.1在 Solr 9.1 中使用 Tesseract OCR
【发布时间】：2023-02-01 00:55:19
【问题描述】：

我有一个运行的设置，我可以在其中提取 Solr（8.11.2 和 tika 1.27）并从 Tesseract (5.2.0) 获取 OCR。

为此，我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我现在正在尝试使用 solr 9.1 (Tika 1.28.4) 和相同的 Tesseract 安装复制设置，文件正在被提取，但我没有得到任何 OCR。

在 9.1.0 中，我在提取 jpg 文件时得到以下信息：

  "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                 "org.apache.tika.parser.jpeg.JpegParser"],

在 8.11.2 的设置中，我在提取相同的 jpg 时得到以下信息：

    "x_parsed_by":["org.apache.tika.parser.DefaultParser",
                   "org.apache.tika.parser.ocr.TesseractOCRParser",
                   "org.apache.tika.parser.jpeg.JpegParser"],

【问题讨论】：

标签： solr tesseract apache-tika solr9

【解决方案1】：

开启9.x默认开启的安全管理器，可以通过设置环境变量来实现：

SOLR_SECURITY_MANAGER_ENABLED=false

问题是 org.apache.tika.parser.ocr.TesseractOCRParser 需要对安装 tesseract 的文件夹的执行权限。

当确定是否应该加载 TesseractOCRParser 时，它会检查它是否可以根据配置定位和调用 Tesseract，用于查看它是否可以执行外部解析器的 check 方法会捕获 SecurityException 以及其他异常，并且只返回 false 而没有任何日志记录，因此即使您打开日志记录也没有迹象表明配置有误。

【讨论】：