【问题标题】:How to convert the pdf document to xml and get the section which contains the table data.如何将pdf文档转换为xml并获取包含表格数据的部分。
【发布时间】:2015-07-27 01:35:17
【问题描述】:

有一个pdf文档,我想把它转换成xml或者html

由于pdf文档包含一些表格,当它转换为xmlhtml时,我不知道哪个是表格数据,哪个是文本。

我想获取表数据来存储数据库。

xpdfmupdf 能做到吗?

谢谢。

【问题讨论】:

    标签: xml pdf mupdf xpdf


    【解决方案1】:

    PDF(通常)不包含有关文本的信息。文本就是文本,没有信息可以识别表格中的文本。

    因此,任何 PDF 阅读应用程序都没有可靠方法将文本识别为表格的一部分。所以 MuPDF 无法告诉你这个。

    当然,您可以尝试自己应用启发式方法,识别具有相同垂直偏移的行中的文本,并以常规 x 偏移查找水平间隔的文本。

    【讨论】:

    • 为了提高更好地导出到 HTML/XML 的机会,让文档可访问可能是值得的;这将为文档添加一个结构(几乎是 HTML),然后可以使用该结构。周围有工具,但可能仍涉及一些体力劳动。但是,如果文档已经带有结构,您应该能够获得该信息。
    • 我已经使用pdftohtml将pdf转换为xml。我想从该xml文件中获取表格数据,例如名称信息。因为topleft是字符串 **Name 的坐标。我需要区分 pdf 和其他表的字符串。所以这个想法可以吗?我从 xpdf 得到 Gfx.cc 代码,有一个名为 opRectangle 的函数,但我不确定这是关于 table pdf.
    【解决方案2】:

    你可以看看免费的表格 https://tabula.technology/

    “一种释放锁定在 PDF 文件中的数据表的工具”。

    这是一个网络应用程序。 您可以在 linux 或 windows 机器上安装 tabula 并在其他电脑上使用它。

    【讨论】:

      猜你喜欢
      • 2012-02-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-04
      • 1970-01-01
      相关资源
      最近更新 更多