【问题标题】:comparing PDF report to Database将 PDF 报告与数据库进行比较
【发布时间】:2021-11-04 22:50:38
【问题描述】:

我有一个用例。假设有一个 pdf 报告,其中包含测试某些制造组件的数据 这个 PDF 报告是使用一些内部开发的软件加载到 DB 中的。 我们需要开发一些对账程序,其中数据需要从 PDF 报告到数据库进行比较。我们可以假设 pdf 文件有一个固定的模板。

如果pdf中有很多表和一些原始文本数据,那么mysql如何将这个pdf数据保存在一个表或多个表中。

请提出一些比较数据的方法(最好在 python 中)

【问题讨论】:

    标签: python mysql python-3.x pdf nlp


    【解决方案1】:

    Finding and extracting specific text from URL PDF files, without downloading or writing (solution) 看看这个例子,看看它是否有帮助。我发现它对我来说很有效,如果 pdf 是基于 URL 的,但您可以简单地将输入源更改为您的数据库。在您的情况下,您可以删除 if isinstance(obj, pdfminer.layout.LTTextBoxHorizontal): 行下的两个 if 语句。您提到具有相同模板的 PDF,如果您希望从模板的特定区域提取文本,请使用已注释掉的 print 语句来查找所需数据的坐标。然后就像在示例中所做的那样,在 if 语句中使用这些坐标。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-12-31
      • 2018-04-18
      相关资源
      最近更新 更多