【发布时间】:2013-06-10 12:34:10
【问题描述】:
问题
我正在尝试通过搜索其文本来确定文档的类型(例如诉状、通信、传票等),最好使用 python。所有 PDF 都是可搜索的,但我还没有找到用 python 解析它并应用脚本来搜索它的解决方案(没有先将其转换为文本文件,但这对于 n 个文档可能是资源密集型的)。
到目前为止我做了什么
我已经查看了 pypdf、pdfminer、adobe pdf 文档以及我能找到的任何问题(尽管似乎没有一个可以直接解决这个问题)。 PDFminer 似乎最有潜力,但在阅读完文档后,我什至不确定从哪里开始。
是否有一种简单、有效的方法来阅读 PDF 文本,无论是按页、行还是整个文档?还是有其他解决方法?
【问题讨论】:
-
我一直在寻找相同的解决方案。问题在于 PDF 文档因将文本分解成难以重新组合的块而臭名昭著。这取决于编写 PDF 的程序。我最终使用 PDFminer 和大量“elif”代码来解析 PDF。
-
只是一个想法,也许不切实际...如果您急于找到解决方法,可以尝试调用 pdfgrep (pdfgrep.sourceforge.net) 进行搜索。