【问题标题】:Using R to transform all pages of a PDF into text, for multiple files使用 R 将 PDF 的所有页面转换为文本,用于多个文件
【发布时间】:2017-01-27 11:37:30
【问题描述】:

我正在使用循环的“pdf_render_page”函数来创建 PDF 文档的位图,然后通过 tesseract 包将其转换为原始文本。但是,此功能仅在知道文件大小的情况下才有效。有谁知道获取总页码未知的pdf并发现页数然后运行此循环的方法?

【问题讨论】:

  • 您对pdf_rendrer_page 所做的事情的描述是错误的。阅读文档。
  • 有一个名为 tesseract 的 r 包,它可以让您访问 tesseract 命令行工具,它是一个高质量的开源 OCR 程序。
  • @Murphy'sLaw 该文档告诉您如何呈现任何特定页面,而不仅仅是第一个页面。之后,它只是使用 for 循环或应用类型函数迭代文件和文件中的页面的基本迭代。通过学习阅读文档和使用 R 的基本功能,您将得到更好的服务,而不是通过为您的特定问题提供解决方案。相信我,我正在努力提供帮助。
  • @Ista 默认呈现第一页。鉴于我知道文档大小,我可以在文档上迭代一个 for 循环。但是鉴于我不知道页面的数量,这就是我要解决的问题;不是前两个步骤。
  • @Murphy'sLaw 感谢您澄清问题。 pdftools 包中只有 7 个函数。我敢打赌,你可以猜出哪一个告诉你页数。

标签: r pdf ocr


【解决方案1】:

使用 pdftools 包时,您可以通过以下方式指定 pdf 'dummy.pdf' 的长度:

pdf_length <- pdf_info("dummy.pdf")$pages

【讨论】:

    猜你喜欢
    • 2016-02-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-02-22
    • 2012-04-24
    相关资源
    最近更新 更多