【发布时间】:2012-11-26 05:01:05
【问题描述】:
我有几份 PDF 格式的文件,几乎都是抄本。我正在寻找一种方法来搜索这些成绩单(并使其自动化)并从本质上刮掉对话/标题/等。到原始数据(例如“X 说了多少次 Y?”)
有没有一种方法可以将 PDF 转换为更友好的格式(例如 HTML 或伪 HTML),以便我可以准确地看到正在发生的事情?
我目前正在使用一个刮板,它将所有包含的文本转换为一个 txt 文件,这很有用,除了它会抛出格式(粗体语句等),这会让生活变得更轻松。
任何使用 Python 以这种方式浏览 PDF 的方式都将受到赞赏。
【问题讨论】:
-
我认为这些 PDF 不允许您先将它们另存为文本?有些确实...
-
嗯...我不确定你的意思。我的文件夹中有 PDF。是否有仅将它们保存为文本的标准功能?我应该澄清一下,这些 PDF 不是 100% 的单词。有一些图片和表格,但这些在很大程度上(目前)与我的目的无关。
-
好吧,当我打开一些 PDF 文件时,我可以选择将它们另存为文本。并非所有 PDF。我想这取决于它们是如何生成的。
-
啊,我刚试过。它的工作方式似乎与通常将其转换为 txt 的方式相同,但这并不是很有帮助。我现在正在探索一些类似的选项,但它们并不那么容易获得。