【问题标题】:Reading text + graphic (like lines) info from an existing pdf从现有 pdf 中读取文本 + 图形(如线条)信息
【发布时间】:2011-03-08 03:41:16
【问题描述】:

我想阅读现有的 pdf 并提取文本和图形信息。在图形中,目前我只需要绘制的线条。阅读 PDF 文本的供应商组件很多,但是否也有可以提供图形信息的供应商组件?虽然首选免费/开源,但我也可以接受商业。

要求是:

对于 PDF 中的每一页:

  1. 读取文本块

  2. 了解文本块(包含块的矩形)的画布坐标。注意,对于字体较大的文本,矩形大小会发生变化。

  3. 行 - 需要为 pdf 页面中的每一行收集 (x1,y1,x2,y2)

谢谢, - 探索者

【问题讨论】:

    标签: pdf text line graphic


    【解决方案1】:

    这是我的领域,虽然这个问题有点老了。希望这仍然有帮助。

    你留了一些假设的空间,所以这是我的:

    • 您寻求的是脚本,而不是独立软件
    • 你的对象是档案

      1. 您正在运行命令行脚本: 使用这个命令行脚本,详细地址:http://stefaanlippens.net/extract-images-from-pdf-documents

      2. 您正在使用 imagemagick 或 graphicsmagick 函数运行服务器端代码: 像“convert -background white -flatten test1.pdf test1.jpg”(imagemagick)之类的东西会将整个 PDF 页面呈现为 jpeg。如果您想将其裁剪为图像,则取决于项目的上下文来确定执行此操作的最佳脚本。

    一个相当复杂的问题。如果您想提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。

    【讨论】:

    • 类似的问题。我需要确定 PDF 图像中字段的媒体框。试图确定是解析绘图命令还是对图像本身进行布局分析。你这里有指导吗?谢谢
    • 这是个顽固的人,大卫。目的/输出媒体是什么?你可以访问什么解析器?
    • 小目标:一些 PDF 实现了除最终签名和日期字段之外的所有字段,强制用户打印、签名、扫描和传真。我们想通过点击实现添加签名字段,但我们需要一种方法来确定字段出现的位置。大目标:通过将整个图像转换为带有实时字段的 PDF,使天真用户相信表单图像是实际的 PDF 表单。我们已经决定使用图像比解析绘图命令更不是一场噩梦。目前正在使用 LxPDFParser (github.com/DeveloperLx/LxPDFParser)。
    • 嗯。我很想看看你解决这个问题的过程:用传统的在线表格和电子签名(或密码/时间戳等)替换 PDF 似乎比 PDF 方法更容易。如果由于某种原因这是不可能的,我会编写 PDF 表单的构建脚本。这仍然不能解决签名问题;但我不能说这对 PDF 来说是可能的,如果它仍然需要有人用笔签名的话。同样,您必须寻求处理以解决中断的用户行为。 (即杰弗里摩尔,跨越鸿沟)
    猜你喜欢
    • 2014-08-10
    • 2019-12-29
    • 2023-04-03
    • 2014-05-27
    • 2016-07-23
    • 1970-01-01
    • 1970-01-01
    • 2011-05-09
    • 2023-03-25
    相关资源
    最近更新 更多