解析 PDF 文档答案

【问题标题】：Parsing PDF documents解析 PDF 文档
【发布时间】：2015-06-16 23:28:31
【问题描述】：

我将尝试下面链接中的 pdf 模块。假设可行，我的问题是：

有没有办法像合同一样存储大型文本文档，并能够同时从多个文档中查询信息？

例如，我想查询终止日期或定价，然后能够阅读该部分以获取合同列表。

【问题讨论】：

如果你能细化和缩小这个问题，你也能得到更多的回应。

标签： python parsing pdf nosql

【解决方案1】：

我为此使用了 pyPDF 库（这直接来自activeState 网页）：

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")

这应该是一个开始的好地方。我已将其用于自动测试创建的 PDF。

也许更适合您的问题的更好方法是使用 Microsoft 的 SQL Server。他们对文档进行全文搜索（搜索“SQL Server Full text search on pdf”）。如果您可以在 SQL 服务器上加载所有文档，那么您可以开始使用全文搜索来获取您想要的信息。这可能比上述更容易和更灵活。

【讨论】：

我会试一试，谢谢。有关如何存储这些文件的任何建议？与在 Word/Adobe 中打开并按 Control+F 相比，一定有更好的方法
我无法让它工作。对于（路径），我应该输入我的确切文件位置（C:\\...\Something.pdf）吗？我一直收到空白内容。我能够使用这个库从 PDF 中选择某些工作表并创建一个新的 PDF 或与其他 PDF 合并，但我不知道如何让它创建文本