【发布时间】:2011-06-22 01:54:37
【问题描述】:
是否可以使用 PHP 或 linux 库获取 PDF 文档中所有文本字段的 X/Y 坐标和高度/宽度?我正在使用 PDFTK 提取 PDF 中的所有文本字段,但它没有给我坐标和/或尺寸信息。如果没有,是否可以遍历 PDF 文档并计算文本字段的 x、y 和高度/宽度数据?
【问题讨论】:
是否可以使用 PHP 或 linux 库获取 PDF 文档中所有文本字段的 X/Y 坐标和高度/宽度?我正在使用 PDFTK 提取 PDF 中的所有文本字段,但它没有给我坐标和/或尺寸信息。如果没有,是否可以遍历 PDF 文档并计算文本字段的 x、y 和高度/宽度数据?
【问题讨论】:
有可能,但很难做到。
您可以使用FPDI 在 PHP 中打开 PDF 文档。它在内存中生成 PDF 对象的抽象树。 TCPDF 和 FPDF 可以保存回来。
但是遍历所述树并找到正确的属性是非常重要的。 (我不小心动词了。)
现在 PDF 格式实际上是人类可读的。它肯定会包含可读格式的坐标(主要是点 IIRC)。因此,如果您只知道在哪里查找,您可能会通过一个简单的正则表达式来发现它。一些节点只需要 gzuncompress()ed,并且您不会尝试修改文档或将其保存回来。因此,尝试 FPDI 和 print_r() 来设计策略。
【讨论】:
是的,这并不难。我知道的最好的工作工具是pdfminer。它是 python,但如果你不想使用 python,你可以将 pdf 信息转储为 xml 格式,然后用你选择的武器解析它:) 如果你有问题,请回复:)
【讨论】: