【发布时间】:2015-08-02 22:19:54
【问题描述】:
如何将pdf中的表格转换为excel。
我尝试了一些在线工具,但结果为 60%。
我的 pdf 中包含的示例表如下所示。 我已经隐藏了包含名称的字段。
【问题讨论】:
-
将 PDF(通常呈现为图像)转换为 Excel 是出了名的困难。
-
还有其他方法吗
-
去获取生成此 PDF 的原始数据源。
如何将pdf中的表格转换为excel。
我尝试了一些在线工具,但结果为 60%。
我的 pdf 中包含的示例表如下所示。 我已经隐藏了包含名称的字段。
【问题讨论】:
从 pdf 文件中获取数据非常麻烦。如果 pdf 表是有序的并且嵌入了一个独特的模式,那么获取数据的最佳方法是将 pdf 转换为 xml。为此,您可以使用:pdftohtml。
安装:sudo apt-get install pdftohtml
用法:pdftohtml -xml *Your File.pdf* *Output File.xml*
您可以直接在终端中运行此命令。
您现在将获得的 xml 文件将具有与 html 类似的标签,您可以使用这些标签从生成的 xml 输出中获取数据。
PS:需要注意的一点是,如果 pdf 表没有排序,那么从该 xml 中获取数据变得非常困难,因为标签将具有一些与模式不匹配的属性。在这种情况下,您将需要硬编码。
【讨论】: