【发布时间】:2021-01-08 17:59:09
【问题描述】:
我让 Tika 使用 Tesseract 处理 PDF 文件,但似乎如果我给它一个包含可搜索文本和图像的 PDF 文件,文本会被 OCRed 两次。有没有办法避免这种情况?即使它必须通过两次,一次用于纯文本,然后另一次用于图像
【问题讨论】:
-
其他工具是否已经完成 OCR 并将该文本存储在扫描图像后面?
-
不,我用自己创建的测试文件尝试了这个。一段是纯文本,另一段是纯图像(文本)
标签: ocr tesseract apache-tika