【问题标题】:Convert PDF to Excel [closed]将 PDF 转换为 Excel [关闭]
【发布时间】:2015-08-02 22:19:54
【问题描述】:

如何将pdf中的表格转换为excel。

我尝试了一些在线工具,但结果为 60%。

我的 pdf 中包含的示例表如下所示。 我已经隐藏了包含名称的字段。

【问题讨论】:

  • 将 PDF(通常呈现为图像)转换为 Excel 是出了名的困难。
  • 还有其他方法吗
  • 去获取生成此 PDF 的原始数据源。

标签: java python pdf


【解决方案1】:

从 pdf 文件中获取数据非常麻烦。如果 pdf 表是有序的并且嵌入了一个独特的模式,那么获取数据的最佳方法是将 pdf 转换为 xml。为此,您可以使用:pdftohtml

安装:sudo apt-get install pdftohtml

用法:pdftohtml -xml *Your File.pdf* *Output File.xml*

您可以直接在终端中运行此命令。

您现在将获得的 xml 文件将具有与 html 类似的标签,您可以使用这些标签从生成的 xml 输出中获取数据。

PS:需要注意的一点是,如果 pdf 表没有排序,那么从该 xml 中获取数据变得非常困难,因为标签将具有一些与模式不匹配的属性。在这种情况下,您将需要硬编码。

【讨论】:

  • 鉴于 OP 尝试了一些不太符合他/她期望的在线解决方案,我确实想知道这将如何运作 :)
  • 正是我自己参与了解析 pdf 数据的工作,但是从 pdf 中获取数据是一件很痛苦的事情……尤其是当数据不是结构化的时候。无论如何,如果这对他/她有用,他/她可以尝试。 :) 在线软件本身不会产生所需的输出,我记得曾经有一个在线网站可以产生这种输出,但除了编码之外,它还是需要人工劳动。
猜你喜欢
  • 2010-11-16
  • 2018-08-25
  • 1970-01-01
  • 2013-12-26
  • 2012-02-05
  • 2019-10-26
  • 2010-10-31
  • 2012-03-22
  • 1970-01-01
相关资源
最近更新 更多