【问题标题】:Read from a searchable pdf, without ocr从可搜索的 pdf 中读取,无需 ocr
【发布时间】:2011-12-14 20:44:55
【问题描述】:

我目前正在使用我的扫描仪将我的 PDF 转换为可搜索的 PDF。 OCR 已经处理好了,因为我可以在 PDF 中使用 ctrl-f。

我怎样才能从我的程序中获取 OCR 的内容。

我愿意使用 java、ruby,问题是某种编程语言不可知论。是否可以通过读取文件公开访问 OCR 文本?

【问题讨论】:

    标签: pdf


    【解决方案1】:

    不确定您的 OCR 软件如何创建 PDF,但您能否使用 third-party library (jPedal)iTextXPDF 等工具从生成的 PDF 中提取文本?

    【讨论】:

    • 谢谢。 Itext 显然也可以做到这一点,只是让它工作
    • 我实际上是想先包含 iText,但一定是在按“添加”之前不小心把它编辑掉了。不过,为了完整起见,将其添加到答案中。很高兴它有帮助!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-27
    相关资源
    最近更新 更多