如何在 PDF 中识别/映射词汇表术语答案

【问题标题】：How To to Identify/Map Glossary Terms in PDFs如何在 PDF 中识别/映射词汇表术语
【发布时间】：2020-09-09 21:18:36
【问题描述】：

你们好漂亮的人，

我希望你们中的某个人可以通过给我一个天才的解决方案来自动完成这项任务，从而节省我的工作时间......

我在 Mac 上的一个文档中有 200 个 PDF。每个 PDF 的文件名是唯一的 8 个字母代码。

我还有一个 Excel 词汇表，其中定义了这些 PDF 中使用的常用术语 - 大约有 1500 个词汇表术语。

我的老板希望我们在 Excel 中创建一个名为“使用术语的文档”的附加列，并列出所有使用该术语的文档。

然后，我们会将其传输到数据库中，以管理此映射的后续维护。我这里需要的是初始映射

而不是手动打开每个不可行的 PDF。我怎样才能让某种脚本在 Excel 的每一行中获取术语，扫描 200 个文档以查看是否使用了该术语，并在 Excel 中的列中填充实际使用该术语的 PDF 的文件名.

您可以想象，1500 个术语乘以 200 个 PDF = 如果我尝试手动执行此操作，我将在完成此操作之前死去

欢迎所有想法和解决方案。如果需要，我也可以在 Windows 机器上执行此操作

谢谢大家，很高兴听到您的解决方案

【问题讨论】：

【解决方案1】：

了解更多有关您的 pdf 文件的信息会有所帮助 - 是纯文本、表格还是混合...？您是否已经尝试将它们导入 Excel，这可能会使事情变得更容易？

如果要查找的内容在 Excel 中（例如按选项卡的一个文档），您可以编写一个相对简单的 VBA 代码，在每个文档的单元格 Ax 中查找每个术语（即在每个选项卡中），并将文档/选项卡的名称添加到相应的 Cx 单元格中。每个选项卡将有 1 个循环，每个选项卡嵌套到每个术语的循环中（或相反）。

当您对您的 pdf 和/或您在此方面的初步尝试多说一点时，很高兴提供更多支持

希望对你有帮助！

【讨论】：