【问题标题】:Grouping similar PDF files in folders using python使用python对文件夹中的类似PDF文件进行分组
【发布时间】:2020-12-18 19:49:38
【问题描述】:

我有一个文件夹,里面有一堆 PDF 格式的扫描发票。我想将这些 PDF 文件分组到单独的文件夹中;每个供应商名称的单独文件夹。

(供应商名称通常可以在页面顶部看到,就像“信头”一样,有时它可能会被限制在顶部较小的区域)

我打算为此分组目的编写一个.py 脚本,但我不确定哪种方法可行。

我可以使用OpenCV 图像处理将 PDF 读取为图像,然后训练模型以使用任何机器学习分类器进行分类吗?

还有其他更好的方法可以尝试吗?

【问题讨论】:

    标签: python pdf grouping data-extraction


    【解决方案1】:

    我将从使用 Tika 探索 pdf 解析开始。 OpenCV 对你的问题来说似乎有点过头了。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多