【问题标题】:text extraction project - best tool for extracting only specific rows / items out of a PDF?文本提取项目 - 仅从 PDF 中提取特定行/项目的最佳工具?
【发布时间】:2012-03-25 16:26:57
【问题描述】:

我正在做一个从 pdf 文档中提取指定文本的项目。我没有这种提取的经验。一个问题是我们不只是想要转储文档中的所有文本。相反,有没有办法只提取 pdf 中的某些字段?是否有可以用于此类事情的 pdf 模板的概念?

我正在尝试使用 Apple 的 Automator - 这可以获取所有文本,但不能获取指定文本。理想情况下,我希望 Pages 中的某个人拥有例如 30 行谨慎的文本,其中 20 行被指定为“目录项”,并且我们的 Automator 脚本只占用这 20 行。

关于最佳工作流程/提取工具的任何想法?我更喜欢只使用消费者级别的项目,例如 Apple Pages、Automator,以及 ruby​​ 或 python 作为脚本语言。

谢谢

编辑 #1 看起来带标签的 pdf 可能是执行此操作的一种方法 - 不确定 Apple Pages 对此的支持程度如何

【问题讨论】:

  • 好奇为什么人们投票关闭?
  • 您要提取的 PDF 文档是 tagged-pdf 格式吗?
  • 我们可以选择是否标记它们。这些将是最终用户可以生成的文档,但不确定(或是否完全支持)标记的 pdf 的支持程度。这是一个从头开始的解决方案,因此任何想法都会受到赞赏。
  • 如果最终用户正在制作这个,它是否需要是一个pdf?使用纯文本文档、csv 文件或除 pdf 之外的任何其他文件(因为 pdf 面向视觉美学,​​而不是信息检索),这项任务会容易得多。

标签: python ruby pdf text automator


【解决方案1】:

对于 python,最好的选择可能是PDFMiner。它可以提取每个文本字符串的坐标,因此您可以自己计算表单中的矩形并挑选出其中的内容。这都是相当低级的,但不幸的是 PDF 是一种相当低级的格式。

请注意,除非您已经对 PDF 的结构有很多了解,否则您会发现 API 和文档很少。查看使用示例,包括此处的 SO。

【讨论】:

    【解决方案2】:

    对于 Ruby,您可以尝试使用 pdf-reader 解析 PDF 并访问元数据和内容。提取您感兴趣的特定项目是另一回事,但如何去做这在很大程度上取决于您期望的数据格式。

    【讨论】:

    • 感谢回答 - 同意“另一个故事”。在这一点上,我们可以控制格式,所以我们想为 Apple Pages 自动文本提取系统的手问题创建最好的故事
    【解决方案3】:

    您可以在 Ruby 中使用Origami,这是一个旨在解析、分析、 并伪造 PDF 文档,或 Python 等价物:Origapy,一个简单的 Python 基于 Ruby 的 Origami 接口。

    【讨论】:

    • thx - 我用过 Origami,但我认为它不能处理带标签的 pdfs
    猜你喜欢
    • 1970-01-01
    • 2015-12-16
    • 1970-01-01
    • 1970-01-01
    • 2015-09-26
    • 2018-02-27
    • 1970-01-01
    • 2018-09-02
    • 1970-01-01
    相关资源
    最近更新 更多