【问题标题】:Extraction of tables from PDF [closed]从 PDF 中提取表格 [关闭]
【发布时间】:2018-07-07 02:52:31
【问题描述】:

我有一个包含文本、图像和表格的 pdf 文件。我想使用 Python 或 R 仅从该 pdf 文件中提取表格。

【问题讨论】:

  • Okay.
  • 欢迎来到 Stack Overflow!您似乎在要求某人为您编写一些代码。 Stack Overflow 是一个问答网站,而不是代码编写服务。请see here学习如何写出有效的问题。
  • 请阿姨Google帮忙

标签: python r pdf pdf-scraping


【解决方案1】:

您可能会发现 PyPI 很有用 - 您可以在那里搜索特定内容,例如“PDF”,它会为您提供与 PDF 相关的模块列表 (here)。从它对 PyPI 的重要性来看,您可能需要 PDF 1.0。这应该可以帮助您入门!

【讨论】:

    【解决方案2】:

    如果您正在考虑使用 R,我建议您使用 tabulizer 包。
    它可用here 并且非常易于使用。 要安装它,您必须使用以下命令:

    install.packages("devtools")
    devtools::install_github("ropensci/tabulizer")
    

    并使用他们的一个例子:

    library("tabulizer")
    f <- system.file("examples", "data.pdf", package = "tabulizer")
    # When f is your selected pdf file.
    out1 <- extract_tables(f)
    # Or even better, say what page the tables are in.
    out2 <- extract_tables(f, pages = 1, guess = FALSE, method = "data.frame")
    

    【讨论】:

      猜你喜欢
      • 2023-03-23
      • 2022-01-18
      • 1970-01-01
      • 2015-04-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多