【发布时间】:2015-06-16 23:28:31
【问题描述】:
我将尝试下面链接中的 pdf 模块。假设可行,我的问题是:
有没有办法像合同一样存储大型文本文档,并能够同时从多个文档中查询信息?
例如,我想查询终止日期或定价,然后能够阅读该部分以获取合同列表。
【问题讨论】:
-
如果你能细化和缩小这个问题,你也能得到更多的回应。
我将尝试下面链接中的 pdf 模块。假设可行,我的问题是:
有没有办法像合同一样存储大型文本文档,并能够同时从多个文档中查询信息?
例如,我想查询终止日期或定价,然后能够阅读该部分以获取合同列表。
【问题讨论】:
我为此使用了 pyPDF 库(这直接来自activeState 网页):
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace("\xa0", " ").strip().split())
return content
print getPDFContent("test.pdf")
这应该是一个开始的好地方。我已将其用于自动测试创建的 PDF。
也许更适合您的问题的更好方法是使用 Microsoft 的 SQL Server。他们对文档进行全文搜索(搜索“SQL Server Full text search on pdf”)。如果您可以在 SQL 服务器上加载所有文档,那么您可以开始使用全文搜索来获取您想要的信息。这可能比上述更容易和更灵活。
【讨论】: