将 PDF 报告与数据库进行比较

【问题标题】：comparing PDF report to Database将 PDF 报告与数据库进行比较
【发布时间】：2021-11-04 22:50:38
【问题描述】：

我有一个用例。假设有一个 pdf 报告，其中包含测试某些制造组件的数据这个 PDF 报告是使用一些内部开发的软件加载到 DB 中的。我们需要开发一些对账程序，其中数据需要从 PDF 报告到数据库进行比较。我们可以假设 pdf 文件有一个固定的模板。

如果pdf中有很多表和一些原始文本数据，那么mysql如何将这个pdf数据保存在一个表或多个表中。

请提出一些比较数据的方法（最好在 python 中）

【问题讨论】：

标签： python mysql python-3.x pdf nlp

【解决方案1】：

Finding and extracting specific text from URL PDF files, without downloading or writing (solution) 看看这个例子，看看它是否有帮助。我发现它对我来说很有效，如果 pdf 是基于 URL 的，但您可以简单地将输入源更改为您的数据库。在您的情况下，您可以删除 if isinstance(obj, pdfminer.layout.LTTextBoxHorizontal): 行下的两个 if 语句。您提到具有相同模板的 PDF，如果您希望从模板的特定区域提取文本，请使用已注释掉的 print 语句来查找所需数据的坐标。然后就像在示例中所做的那样，在 if 语句中使用这些坐标。

【讨论】：