【问题标题】:Scraping PDF to something friendlier将PDF刮成更友好的东西
【发布时间】:2012-11-26 05:01:05
【问题描述】:

我有几份 PDF 格式的文件,几乎都是抄本。我正在寻找一种方法来搜索这些成绩单(并使其自动化)并从本质上刮掉对话/标题/等。到原始数据(例如“X 说了多少次 Y?”)

有没有一种方法可以将 PDF 转换为更友好的格式(例如 HTML 或伪 HTML),以便我可以准确地看到正在发生的事情?

我目前正在使用一个刮板,它将所有包含的文本转换为一个 txt 文件,这很有用,除了它会抛出格式(粗体语句等),这会让生活变得更轻松。

任何使用 Python 以这种方式浏览 PDF 的方式都将受到赞赏。

【问题讨论】:

  • 我认为这些 PDF 不允许您先将它们另存为文本?有些确实...
  • 嗯...我不确定你的意思。我的文件夹中有 PDF。是否有仅将它们保存为文本的标准功能?我应该澄清一下,这些 PDF 不是 100% 的单词。有一些图片和表格,但这些在很大程度上(目前)与我的目的无关。
  • 好吧,当我打开一些 PDF 文件时,我可以选择将它们另存为文本。并非所有 PDF。我想这取决于它们是如何生成的。
  • 啊,我刚试过。它的工作方式似乎与通常将其转换为 txt 的方式相同,但这并不是很有帮助。我现在正在探索一些类似的选项,但它们并不那么容易获得。

标签: pdf text


【解决方案1】:

您可以查看我们的开源库 PDF2JSON。它将所有文本数据转换为 JSON 或 XML,以便您更轻松地检查它

http://code.google.com/p/pdf2json

【讨论】:

    猜你喜欢
    • 2010-09-27
    • 2015-04-08
    • 1970-01-01
    • 2012-07-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多