【问题标题】:Get dimensions and coordinates of textfields in PDF获取 PDF 中文本字段的尺寸和坐标
【发布时间】:2011-06-22 01:54:37
【问题描述】:

是否可以使用 PHP 或 linux 库获取 PDF 文档中所有文本字段的 X/Y 坐标和高度/宽度?我正在使用 PDFTK 提取 PDF 中的所有文本字段,但它没有给我坐标和/或尺寸信息。如果没有,是否可以遍历 PDF 文档并计算文本字段的 x、y 和高度/宽度数据?

【问题讨论】:

    标签: php pdf


    【解决方案1】:

    有可能,但很难做到。

    您可以使用FPDI 在 PHP 中打开 PDF 文档。它在内存中生成 PDF 对象的抽象树。 TCPDF 和 FPDF 可以保存回来。

    但是遍历所述树并找到正确的属性是非常重要的。 (我不小心动词了。)

    现在 PDF 格式实际上是人类可读的。它肯定会包含可读格式的坐标(主要是点 IIRC)。因此,如果您只知道在哪里查找,您可能会通过一个简单的正则表达式来发现它。一些节点只需要 gzuncompress()ed,并且您不会尝试修改文档或将其保存回来。因此,尝试 FPDI 和 print_r() 来设计策略。

    【讨论】:

      【解决方案2】:

      是的,这并不难。我知道的最好的工作工具是pdfminer。它是 python,但如果你不想使用 python,你可以将 pdf 信息转储为 xml 格式,然后用你选择的武器解析它:) 如果你有问题,请回复:)

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-03-20
        • 1970-01-01
        • 2012-10-26
        • 2010-10-02
        • 2013-03-08
        • 2011-04-26
        • 2012-11-06
        • 1970-01-01
        相关资源
        最近更新 更多