使用python对文件夹中的类似PDF文件进行分组答案

【问题标题】：Grouping similar PDF files in folders using python使用python对文件夹中的类似PDF文件进行分组
【发布时间】：2020-12-18 19:49:38
【问题描述】：

我有一个文件夹，里面有一堆 PDF 格式的扫描发票。我想将这些 PDF 文件分组到单独的文件夹中；每个供应商名称的单独文件夹。

（供应商名称通常可以在页面顶部看到，就像“信头”一样，有时它可能会被限制在顶部较小的区域）

我打算为此分组目的编写一个.py 脚本，但我不确定哪种方法可行。

我可以使用OpenCV 图像处理将 PDF 读取为图像，然后训练模型以使用任何机器学习分类器进行分类吗？

还有其他更好的方法可以尝试吗？

【问题讨论】：

【解决方案1】：

我将从使用 Tika 探索 pdf 解析开始。 OpenCV 对你的问题来说似乎有点过头了。

【讨论】：