【发布时间】:2019-11-14 14:56:31
【问题描述】:
伙计们!我希望你一切都好。识别文档类型的最佳方法是什么?我脑海中浮现的第一件事是将文档传递到 OCR 中,提取其中的信息,然后尝试在该文档中找到其他文档中没有的内容。例如:在一个名为 R.G 的文件上,有一个名为“Órgão expedidor”的信息,在另一个文件上没有。这样我就知道这可能是一个 R.G.这里的问题是,de OCR 过程无法识别某些 PDF 上的“Órgão expedidor”字段。这是完成这项任务的最佳方式吗?
【问题讨论】:
-
欢迎来到 Stack Overflow。很好的有效问题 - 不知道为什么人们不赞成。如果不能依靠 OCR 进行分类,可以使用文档的格式吗?文件在视觉上看起来是否不同。如果它们看起来不同,您可以将页面转换为图像并使用图像分类 AI 对图像进行分类。您可以发布一些示例文档页面吗?
-
欢迎来到 StackOverflow。 On topic、how to ask 和 ...the perfect question 在此处申请。 “什么是最好的方法 ... ?”对于这个网站来说几乎总是过于宽泛。
-
感谢 Adnan 和 Prune 的回答。我可能不会使用计算机视觉来完成这项任务。最后我可能会使用 OCR 和 NLP。
标签: nlp computer-vision artificial-intelligence ocr spacy