【发布时间】:2023-02-01 00:55:19
【问题描述】:
我有一个运行的设置,我可以在其中提取 Solr(8.11.2 和 tika 1.27)并从 Tesseract (5.2.0) 获取 OCR。
为此,我更新了 tika-parsers-1.27.jar 中的 TesseractOCRConfig.properties
tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan
我现在正在尝试使用 solr 9.1 (Tika 1.28.4) 和相同的 Tesseract 安装复制设置,文件正在被提取,但我没有得到任何 OCR。
在 9.1.0 中,我在提取 jpg 文件时得到以下信息:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.jpeg.JpegParser"],
在 8.11.2 的设置中,我在提取相同的 jpg 时得到以下信息:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.ocr.TesseractOCRParser",
"org.apache.tika.parser.jpeg.JpegParser"],
【问题讨论】:
标签: solr tesseract apache-tika solr9