【发布时间】:2020-12-18 19:49:38
【问题描述】:
我有一个文件夹,里面有一堆 PDF 格式的扫描发票。我想将这些 PDF 文件分组到单独的文件夹中;每个供应商名称的单独文件夹。
(供应商名称通常可以在页面顶部看到,就像“信头”一样,有时它可能会被限制在顶部较小的区域)
我打算为此分组目的编写一个.py 脚本,但我不确定哪种方法可行。
我可以使用OpenCV 图像处理将 PDF 读取为图像,然后训练模型以使用任何机器学习分类器进行分类吗?
还有其他更好的方法可以尝试吗?
【问题讨论】:
标签: python pdf grouping data-extraction