【问题标题】:Parsing PDF documents解析 PDF 文档
【发布时间】:2015-06-16 23:28:31
【问题描述】:

我将尝试下面链接中的 pdf 模块。假设可行,我的问题是:

有没有办法像合同一样存储大型文本文档,并能够同时从多个文档中查询信息?

例如,我想查询终止日期或定价,然后能够阅读该部分以获取合同列表。

【问题讨论】:

  • 如果你能细化和缩小这个问题,你也能得到更多的回应。

标签: python parsing pdf nosql


【解决方案1】:

我为此使用了 pyPDF 库(这直接来自activeState 网页):

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

print getPDFContent("test.pdf")

这应该是一个开始的好地方。我已将其用于自动测试创建的 PDF。

也许更适合您的问题的更好方法是使用 Microsoft 的 SQL Server。他们对文档进行全文搜索(搜索“SQL Server Full text search on pdf”)。如果您可以在 SQL 服务器上加载所有文档,那么您可以开始使用全文搜索来获取您想要的信息。这可能比上述更容易和更灵活。

【讨论】:

  • 我会试一试,谢谢。有关如何存储这些文件的任何建议?与在 Word/Adobe 中打开并按 Control+F 相比,一定有更好的方法
  • 我无法让它工作。对于(路径),我应该输入我的确切文件位置(C:\\...\Something.pdf)吗?我一直收到空白内容。我能够使用这个库从 PDF 中选择某些工作表并创建一个新的 PDF 或与其他 PDF 合并,但我不知道如何让它创建文本
猜你喜欢
  • 1970-01-01
  • 2015-03-23
  • 2013-08-19
  • 1970-01-01
  • 2014-05-02
  • 2020-12-09
  • 1970-01-01
  • 1970-01-01
  • 2020-07-10
相关资源
最近更新 更多