如何将pdf文档转换为xml并获取包含表格数据的部分。答案

【问题标题】：How to convert the pdf document to xml and get the section which contains the table data.如何将pdf文档转换为xml并获取包含表格数据的部分。
【发布时间】：2015-07-27 01:35:17
【问题描述】：

有一个pdf文档，我想把它转换成xml或者html。

由于pdf文档包含一些表格，当它转换为xml或html时，我不知道哪个是表格数据，哪个是文本。

我想获取表数据来存储数据库。

xpdf 或 mupdf 能做到吗？

谢谢。

【问题讨论】：

标签： xml pdf mupdf xpdf

【解决方案1】：

PDF（通常）不包含有关文本的信息。文本就是文本，没有信息可以识别表格中的文本。

因此，任何 PDF 阅读应用程序都没有可靠方法将文本识别为表格的一部分。所以 MuPDF 无法告诉你这个。

当然，您可以尝试自己应用启发式方法，识别具有相同垂直偏移的行中的文本，并以常规 x 偏移查找水平间隔的文本。

【讨论】：

为了提高更好地导出到 HTML/XML 的机会，让文档可访问可能是值得的；这将为文档添加一个结构（几乎是 HTML），然后可以使用该结构。周围有工具，但可能仍涉及一些体力劳动。但是，如果文档已经带有结构，您应该能够获得该信息。
我已经使用pdftohtml将pdf转换为xml。我想从该xml文件中获取表格数据，例如名称信息。因为top和left是字符串 **Name 的坐标。我需要区分 pdf 和其他表的字符串。所以这个想法可以吗？我从 xpdf 得到 Gfx.cc 代码，有一个名为 opRectangle 的函数，但我不确定这是关于 table pdf.

【解决方案2】：

你可以看看免费的表格 https://tabula.technology/

“一种释放锁定在 PDF 文件中的数据表的工具”。

这是一个网络应用程序。您可以在 linux 或 windows 机器上安装 tabula 并在其他电脑上使用它。

【讨论】：