【发布时间】:2011-12-14 20:44:55
【问题描述】:
我目前正在使用我的扫描仪将我的 PDF 转换为可搜索的 PDF。 OCR 已经处理好了,因为我可以在 PDF 中使用 ctrl-f。
我怎样才能从我的程序中获取 OCR 的内容。
我愿意使用 java、ruby,问题是某种编程语言不可知论。是否可以通过读取文件公开访问 OCR 文本?
【问题讨论】:
标签: pdf
我目前正在使用我的扫描仪将我的 PDF 转换为可搜索的 PDF。 OCR 已经处理好了,因为我可以在 PDF 中使用 ctrl-f。
我怎样才能从我的程序中获取 OCR 的内容。
我愿意使用 java、ruby,问题是某种编程语言不可知论。是否可以通过读取文件公开访问 OCR 文本?
【问题讨论】:
标签: pdf
不确定您的 OCR 软件如何创建 PDF,但您能否使用 third-party library (jPedal) 或 iText 或 XPDF 等工具从生成的 PDF 中提取文本?
【讨论】: