【发布时间】:2017-01-27 11:37:30
【问题描述】:
我正在使用循环的“pdf_render_page”函数来创建 PDF 文档的位图,然后通过 tesseract 包将其转换为原始文本。但是,此功能仅在知道文件大小的情况下才有效。有谁知道获取总页码未知的pdf并发现页数然后运行此循环的方法?
【问题讨论】:
-
您对
pdf_rendrer_page所做的事情的描述是错误的。阅读文档。 -
有一个名为 tesseract 的 r 包,它可以让您访问 tesseract 命令行工具,它是一个高质量的开源 OCR 程序。
-
@Murphy'sLaw 该文档告诉您如何呈现任何特定页面,而不仅仅是第一个页面。之后,它只是使用 for 循环或应用类型函数迭代文件和文件中的页面的基本迭代。通过学习阅读文档和使用 R 的基本功能,您将得到更好的服务,而不是通过为您的特定问题提供解决方案。相信我,我正在努力提供帮助。
-
@Ista 默认呈现第一页。鉴于我知道文档大小,我可以在文档上迭代一个 for 循环。但是鉴于我不知道页面的数量,这就是我要解决的问题;不是前两个步骤。
-
@Murphy'sLaw 感谢您澄清问题。
pdftools包中只有 7 个函数。我敢打赌,你可以猜出哪一个告诉你页数。