从可搜索的 pdf 中读取，无需 ocr

【问题标题】：Read from a searchable pdf, without ocr从可搜索的 pdf 中读取，无需 ocr
【发布时间】：2011-12-14 20:44:55
【问题描述】：

我目前正在使用我的扫描仪将我的 PDF 转换为可搜索的 PDF。 OCR 已经处理好了，因为我可以在 PDF 中使用 ctrl-f。

我怎样才能从我的程序中获取 OCR 的内容。

我愿意使用 java、ruby，问题是某种编程语言不可知论。是否可以通过读取文件公开访问 OCR 文本？

【问题讨论】：

标签： pdf

【解决方案1】：

不确定您的 OCR 软件如何创建 PDF，但您能否使用 third-party library (jPedal) 或 iText 或 XPDF 等工具从生成的 PDF 中提取文本？

【讨论】：