使用 R 将 PDF 的所有页面转换为文本，用于多个文件答案

【问题标题】：Using R to transform all pages of a PDF into text, for multiple files使用 R 将 PDF 的所有页面转换为文本，用于多个文件
【发布时间】：2017-01-27 11:37:30
【问题描述】：

我正在使用循环的“pdf_render_page”函数来创建 PDF 文档的位图，然后通过 tesseract 包将其转换为原始文本。但是，此功能仅在知道文件大小的情况下才有效。有谁知道获取总页码未知的pdf并发现页数然后运行此循环的方法？

【问题讨论】：

您对pdf_rendrer_page 所做的事情的描述是错误的。阅读文档。
有一个名为 tesseract 的 r 包，它可以让您访问 tesseract 命令行工具，它是一个高质量的开源 OCR 程序。
@Murphy'sLaw 该文档告诉您如何呈现任何特定页面，而不仅仅是第一个页面。之后，它只是使用 for 循环或应用类型函数迭代文件和文件中的页面的基本迭代。通过学习阅读文档和使用 R 的基本功能，您将得到更好的服务，而不是通过为您的特定问题提供解决方案。相信我，我正在努力提供帮助。
@Ista 默认呈现第一页。鉴于我知道文档大小，我可以在文档上迭代一个 for 循环。但是鉴于我不知道页面的数量，这就是我要解决的问题；不是前两个步骤。
@Murphy'sLaw 感谢您澄清问题。 pdftools 包中只有 7 个函数。我敢打赌，你可以猜出哪一个告诉你页数。

标签： r pdf ocr

【解决方案1】：

使用 pdftools 包时，您可以通过以下方式指定 pdf 'dummy.pdf' 的长度：

pdf_length <- pdf_info("dummy.pdf")$pages

【讨论】：