【问题标题】:Importing pdf in R through package "tm"通过包“tm”在R中导入pdf
【发布时间】:2013-07-01 23:28:29
【问题描述】:

我知道通过包“tm”在“R”工作区中获取 pdf 的实际示例,但无法理解代码是如何工作的,因此无法导入所需的 pdf。以下代码中导入的pdf为“tm”小插图。

代码是

if(file.exists(Sys.which("pdftotext"))) {
    pdf <- readPDF(PdftotextOptions = "-layout")(elem = list(uri = vignette("tm")$pdf),
                                                 language = "en",
                                                 id = "id1")
    pdf[1:13]
}

“tm”是小插图。虽然我试图带来的 pdf 是“不同的”。那么如何更改上面的代码以将我的pdf带入工作区。 minn 是我要导入的 pdf 文档。

喜欢

if(file.exists(Sys.which("pdftotext"))) {
        pdf <- readPDF(PdftotextOptions = "-layout")(elem = list(uri = vignette("minn")$pdf),
                                                     language = "en",
                                                     id = "id1")
        pdf[1:13]
    }

【问题讨论】:

  • 你有什么问题?
  • 毫无疑问,这有可能很快被关闭......
  • 我正在尝试通过上述代码导入 pdf,但经过某些尝试后无法这样做。非常大的pdf的名称是100页。那么如何将上面代码中的“tm”名称替换为我想在R中引入的pdf。
  • vignette("tm")$pdf 是指向 tm 包中的小插图的指针。 uri 应该是文件名或路径....可能类似于 "minn.pdf"
  • @Thomas 似乎在附近,但它给了我错误。 PDF_Date_to_POSIXt(dt) 中的错误:无效的多字节字符串 1

标签: r pdf tm


【解决方案1】:

所以看来问题出在我试图阅读的 PDF 上。但是代码如下所示。感谢托马斯的领导。 pdf的链接是“http://www.wine-economics.org/workingpapers/AAWE_WP16.pdf

tt <- readPDF(PdftotextOptions="-layout")
rr <- tt(elem=list(uri="AAWE_WP16.pdf"),language="en",id="id1")
rr[1:15]

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-03-27
    • 2013-07-07
    • 1970-01-01
    • 1970-01-01
    • 2017-02-13
    • 2019-02-05
    • 2023-03-14
    • 1970-01-01
    相关资源
    最近更新 更多