【发布时间】:2021-03-14 02:10:44
【问题描述】:
所以我花了一些时间尝试使用 PyPDF2 提取数据,但这最终在 pdf 中不可靠,即使 pdf 看起来(在眼睛看来)它们具有相似的结构并且可能是计算机生成的。
我喜欢 PyPDF2 的一点是它遍历 pdf 文件并从各种对象中提取文本,因此您不必处理字符之间的间距等(据我所知)extractText PyPDF2 function .
另一方面,根据docs,Camelot 使用 pdfminer,据我所知,它没有执行上述操作,而是尝试根据距离规则将 pdf 的不同部分从字符组合成单词成行。我在使用 Camelot 时遇到的问题是您会得到类似“He l lo Wo rld”的结果。
很遗憾,我无法在线分享 pdf 示例
让我知道哪些其他信息有助于分享
【问题讨论】:
-
你读过这个(camelot-py.readthedocs.io/en/master/user/…)吗?看来您可以在 Camelot 中更改 Pdfminer 参数...
-
是的,我读过这篇文章——我想我找到了解决问题的部分方法
标签: python pypdf2 python-camelot