将PDF刮成更友好的东西答案

【问题标题】：Scraping PDF to something friendlier将PDF刮成更友好的东西
【发布时间】：2012-11-26 05:01:05
【问题描述】：

我有几份 PDF 格式的文件，几乎都是抄本。我正在寻找一种方法来搜索这些成绩单（并使其自动化）并从本质上刮掉对话/标题/等。到原始数据（例如“X 说了多少次 Y？”）

有没有一种方法可以将 PDF 转换为更友好的格式（例如 HTML 或伪 HTML），以便我可以准确地看到正在发生的事情？

我目前正在使用一个刮板，它将所有包含的文本转换为一个 txt 文件，这很有用，除了它会抛出格式（粗体语句等），这会让生活变得更轻松。

任何使用 Python 以这种方式浏览 PDF 的方式都将受到赞赏。

【问题讨论】：

我认为这些 PDF 不允许您先将它们另存为文本？有些确实...
嗯...我不确定你的意思。我的文件夹中有 PDF。是否有仅将它们保存为文本的标准功能？我应该澄清一下，这些 PDF 不是 100% 的单词。有一些图片和表格，但这些在很大程度上（目前）与我的目的无关。
好吧，当我打开一些 PDF 文件时，我可以选择将它们另存为文本。并非所有 PDF。我想这取决于它们是如何生成的。
啊，我刚试过。它的工作方式似乎与通常将其转换为 txt 的方式相同，但这并不是很有帮助。我现在正在探索一些类似的选项，但它们并不那么容易获得。
你试过了吗：pdfonline.com/convert-pdf-to-html

标签： pdf text

【解决方案1】：

您可以查看我们的开源库 PDF2JSON。它将所有文本数据转换为 JSON 或 XML，以便您更轻松地检查它

【讨论】：