【问题标题】:R/R Studio: Iterate Folder of PDFs and Convert to R ObjectsR/R Studio:迭代 PDF 文件夹并转换为 R 对象
【发布时间】:2017-10-10 01:23:39
【问题描述】:

我使用的是 RStudio 版本 1.0.153。

我有一个包含大约 30 个 PDF 的文件夹。我想将它们转换为 R 中的相应对象作为字符串。我已经有了 pdftools 包并且它成功地转换为对象,我只是在寻找一种方法让它迭代地遍历文件夹中的 PDF 列表以自动分配给其各自的变量。

例如,如果我有 30 个名为“P1.pdf、P2.pdf、P3.pdf.... P30.pdf”的 pdf,我如何让 R 使用 pdftools 将它们全部转换为文本,以便它们是它们各自的 R 对象称为 P1、P2、P3.... P3?

非常感谢。

我在这里学到了很多东西!

米拉

【问题讨论】:

  • 您自己尝试过什么吗?请查看this 并考虑编辑您的问题以反映更多信息。一般来说,这里的人们希望问题能显示出一些努力,因为该网站不只是为需要帮助的人编写代码。
  • 我是一个初学者,我已经尝试了一些东西,我显然是新手。我没有发布这个让有人为我编写代码,你的评论在这方面是冒昧的。我仍然无法弄清楚如何编写迭代代码并寻求帮助。
  • 我没有假设任何事情,这就是为什么我问你你做了什么。许多新用户收到“欢迎来到 SO,请阅读 。我的第一条评论与许多第一次用户从这里其他更有经验的用户那里得到的没有什么不同。我没有投反对票您的问题,其他人投了反对票,可能是因为我在评论中指出的内容。我的评论旨在具有建设性,抱歉您没有那样做。如果您展示您尝试的工作,有人可以指出在哪里您需要帮助并提出改进建议。

标签: r pdf pdftotext


【解决方案1】:

这可以工作:

pdf_operations <- function{
... #using whatever operations you may have 
}

fnames <- dir(".//PDF Files/", pattern = "\\.pdf")
sapply(fnames, pdf_operations)

【讨论】:

  • 为什么 OP 必须做一个新的自定义函数?有没有看pdftools有什么功能?
  • 如果他们想将一些数据保存到一个单独的文件(图像或另一个 pdf)中,提取一些信息,将其传递给另一个函数进行清理(比如表格数据 - pdf 可以没有单独的格式)或者只是他们想以某种方式命名对象。尝试提供涵盖上述所有内容的最广泛的解决方案。
  • 您不知道 OP 尝试了什么,所以仅仅写一个答案并希望它是正确的答案是错误的回答问题的方式。我尝试了您的解决方案,据我所知,它不起作用。这可能是因为您不知道实际功能是什么以及它会/应该做什么。
  • 我对pdftools比较熟悉,之前用过。答案基于提供的信息量,我自己验证过。 OP 明确提到他们能够“成功”将 pdf 转换为 R 对象,但需要一种方法来处理一堆文件。请重新阅读原始帖子以及其中的要求。答案还指出:这“可能”有效。最后,请不要对这里发帖的人发表敌对评​​论或做出假设——我们都在努力提供帮助。如果您有更好的解决方案,请随时发布。
  • 我没有敌意,我只是直接。但是这个网站不是建立在“可能”工作的答案之上的。您不知道 OP 知道或不知道什么,因此您在猜测答案是什么。您的答案应包括pdf_text() 或其他内容。当我使用pdf_text 时,sapply 不适用于我的一个目录中的 PDF 的dir() 输出。
猜你喜欢
  • 1970-01-01
  • 2015-03-22
  • 1970-01-01
  • 1970-01-01
  • 2020-09-19
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多