【发布时间】:2015-07-27 01:35:17
【问题描述】:
有一个pdf文档,我想把它转换成xml或者html。
由于pdf文档包含一些表格,当它转换为xml或html时,我不知道哪个是表格数据,哪个是文本。
我想获取表数据来存储数据库。
xpdf 或 mupdf 能做到吗?
谢谢。
【问题讨论】:
有一个pdf文档,我想把它转换成xml或者html。
由于pdf文档包含一些表格,当它转换为xml或html时,我不知道哪个是表格数据,哪个是文本。
我想获取表数据来存储数据库。
xpdf 或 mupdf 能做到吗?
谢谢。
【问题讨论】:
PDF(通常)不包含有关文本的信息。文本就是文本,没有信息可以识别表格中的文本。
因此,任何 PDF 阅读应用程序都没有可靠方法将文本识别为表格的一部分。所以 MuPDF 无法告诉你这个。
当然,您可以尝试自己应用启发式方法,识别具有相同垂直偏移的行中的文本,并以常规 x 偏移查找水平间隔的文本。
【讨论】:
你可以看看免费的表格 https://tabula.technology/
“一种释放锁定在 PDF 文件中的数据表的工具”。
这是一个网络应用程序。 您可以在 linux 或 windows 机器上安装 tabula 并在其他电脑上使用它。
【讨论】: