camelot 可以使用 pdf "primitives" 来提取数据吗？答案

【问题标题】：Can camelot use pdf "primitives" to extract data?camelot 可以使用 pdf "primitives" 来提取数据吗？
【发布时间】：2021-03-14 02:10:44
【问题描述】：

所以我花了一些时间尝试使用 PyPDF2 提取数据，但这最终在 pdf 中不可靠，即使 pdf 看起来（在眼睛看来）它们具有相似的结构并且可能是计算机生成的。

我喜欢 PyPDF2 的一点是它遍历 pdf 文件并从各种对象中提取文本，因此您不必处理字符之间的间距等（据我所知）extractText PyPDF2 function .

另一方面，根据docs，Camelot 使用 pdfminer，据我所知，它没有执行上述操作，而是尝试根据距离规则将 pdf 的不同部分从字符组合成单词成行。我在使用 Camelot 时遇到的问题是您会得到类似“He l lo Wo rld”的结果。

很遗憾，我无法在线分享 pdf 示例

让我知道哪些其他信息有助于分享

【问题讨论】：

你读过这个（camelot-py.readthedocs.io/en/master/user/…）吗？看来您可以在 Camelot 中更改 Pdfminer 参数...
是的，我读过这篇文章——我想我找到了解决问题的部分方法

【解决方案1】：

不是一个完美的答案，但以防其他人在这里结束。在搜索文本并匹配文本时，我发现一件事很有帮助，那就是删除所有空格。

因此，如果我正在寻找“Hello World”，但通过删除空格得到“He l lo Wo rld”，它们实际上是相同的。

这解决了我的问题

【讨论】：