【发布时间】:2009-04-22 16:38:31
【问题描述】:
是否有人尝试使用 OCR 库和 Java 从 PDF 中提取文本?您发现什么是最可靠的文本提取库。我见过的大多数方法(tesseract、GOCR)都是需要编写一些 JNI 代码的 C 库。
我熟悉 pdfbox,它现在是 0.8.x 版本的 Apache 孵化器项目,但它的文本提取并不总是准确的。我正在寻找一种更可靠的替代方法。
我还没有尝试过 Asprise JavaPDF,正在尝试,但想了解更多关于 OCR 方法的信息(如果可能的话)。
任何帮助将不胜感激。
【问题讨论】:
-
您使用的是结构化 PDF 吗?如果您有能力在 JAVA 中从 PDF 元数据中获取文本。
-
不,不是所有的 PDF 都是结构化的。
标签: java pdf text-parsing