从现有 pdf 中读取文本 + 图形（如线条）信息答案

【问题标题】：Reading text + graphic (like lines) info from an existing pdf从现有 pdf 中读取文本 + 图形（如线条）信息
【发布时间】：2011-03-08 03:41:16
【问题描述】：

我想阅读现有的 pdf 并提取文本和图形信息。在图形中，目前我只需要绘制的线条。阅读 PDF 文本的供应商组件很多，但是否也有可以提供图形信息的供应商组件？虽然首选免费/开源，但我也可以接受商业。

要求是：

对于 PDF 中的每一页：

谢谢， - 探索者

【问题讨论】：

【解决方案1】：

这是我的领域，虽然这个问题有点老了。希望这仍然有帮助。

你留了一些假设的空间，所以这是我的：

您寻求的是脚本，而不是独立软件
你的对象是档案
1. 您正在运行命令行脚本：使用这个命令行脚本，详细地址：http://stefaanlippens.net/extract-images-from-pdf-documents
2. 您正在使用 imagemagick 或 graphicsmagick 函数运行服务器端代码：像“convert -background white -flatten test1.pdf test1.jpg”（imagemagick）之类的东西会将整个 PDF 页面呈现为 jpeg。如果您想将其裁剪为图像，则取决于项目的上下文来确定执行此操作的最佳脚本。

一个相当复杂的问题。如果您想提供有关该项目的更多详细信息，那么我可以提供更多指导。祝你好运。

【讨论】：

类似的问题。我需要确定 PDF 图像中字段的媒体框。试图确定是解析绘图命令还是对图像本身进行布局分析。你这里有指导吗？谢谢
这是个顽固的人，大卫。目的/输出媒体是什么？你可以访问什么解析器？
小目标：一些 PDF 实现了除最终签名和日期字段之外的所有字段，强制用户打印、签名、扫描和传真。我们想通过点击实现添加签名字段，但我们需要一种方法来确定字段出现的位置。大目标：通过将整个图像转换为带有实时字段的 PDF，使天真用户相信表单图像是实际的 PDF 表单。我们已经决定使用图像比解析绘图命令更不是一场噩梦。目前正在使用 LxPDFParser (github.com/DeveloperLx/LxPDFParser)。
嗯。我很想看看你解决这个问题的过程：用传统的在线表格和电子签名（或密码/时间戳等）替换 PDF 似乎比 PDF 方法更容易。如果由于某种原因这是不可能的，我会编写 PDF 表单的构建脚本。这仍然不能解决签名问题；但我不能说这对 PDF 来说是可能的，如果它仍然需要有人用笔签名的话。同样，您必须寻求处理以解决中断的用户行为。（即杰弗里摩尔，跨越鸿沟）