使用人工智能识别文档类型的最佳方法是什么？答案

【问题标题】：What is the best way to recognize document types using artificial intelligence?使用人工智能识别文档类型的最佳方法是什么？
【发布时间】：2019-11-14 14:56:31
【问题描述】：

伙计们！我希望你一切都好。识别文档类型的最佳方法是什么？我脑海中浮现的第一件事是将文档传递到 OCR 中，提取其中的信息，然后尝试在该文档中找到其他文档中没有的内容。例如：在一个名为 R.G 的文件上，有一个名为“Órgão expedidor”的信息，在另一个文件上没有。这样我就知道这可能是一个 R.G.这里的问题是，de OCR 过程无法识别某些 PDF 上的“Órgão expedidor”字段。这是完成这项任务的最佳方式吗？

【问题讨论】：

欢迎来到 Stack Overflow。很好的有效问题 - 不知道为什么人们不赞成。如果不能依靠 OCR 进行分类，可以使用文档的格式吗？文件在视觉上看起来是否不同。如果它们看起来不同，您可以将页面转换为图像并使用图像分类 AI 对图像进行分类。您可以发布一些示例文档页面吗？
欢迎来到 StackOverflow。 On topic、how to ask 和 ...the perfect question 在此处申请。 “什么是最好的方法 ... ？”对于这个网站来说几乎总是过于宽泛。
感谢 Adnan 和 Prune 的回答。我可能不会使用计算机视觉来完成这项任务。最后我可能会使用 OCR 和 NLP。

标签： nlp computer-vision artificial-intelligence ocr spacy

【解决方案1】：

首先，您需要创建涵盖您的域的数据集。准备文本语料库并为其分配所需的标签。查看thread，了解有关语料库嵌入器的一些提示。

使用某些 OCR 包（即 tesseract）提取文本
将文本编码为潜在空间
训练你的模型

这是最简单的方法。

当您根据一些视觉特征确定文档类型时，它会变得更加困难。然后您必须深入了解 CNN 架构，因为手动定义这些功能将非常困难且容易出错。

【讨论】：

谢谢，皮奥特！最后我可能会使用 OCR 和 NLP。 :)