【问题标题】:What is the best way to recognize document types using artificial intelligence?使用人工智能识别文档类型的最佳方法是什么?
【发布时间】:2019-11-14 14:56:31
【问题描述】:

伙计们!我希望你一切都好。识别文档类型的最佳方法是什么?我脑海中浮现的第一件事是将文档传递到 OCR 中,提取其中的信息,然后尝试在该文档中找到其他文档中没有的内容。例如:在一个名为 R.G 的文件上,有一个名为“Órgão expedidor”的信息,在另一个文件上没有。这样我就知道这可能是一个 R.G.这里的问题是,de OCR 过程无法识别某些 PDF 上的“Órgão expedidor”字段。这是完成这项任务的最佳方式吗?

【问题讨论】:

  • 欢迎来到 Stack Overflow。很好的有效问题 - 不知道为什么人们不赞成。如果不能依靠 OCR 进行分类,可以使用文档的格式吗?文件在视觉上看起来是否不同。如果它们看起来不同,您可以将页面转换为图像并使用图像分类 AI 对图像进行分类。您可以发布一些示例文档页面吗?
  • 欢迎来到 StackOverflow。 On topichow to ask 和 ...the perfect question 在此处申请。 “什么是最好的方法 ... ?”对于这个网站来说几乎总是过于宽泛。
  • 感谢 Adnan 和 Prune 的回答。我可能不会使用计算机视觉来完成这项任务。最后我可能会使用 OCR 和 NLP。

标签: nlp computer-vision artificial-intelligence ocr spacy


【解决方案1】:

首先,您需要创建涵盖您的域的数据集。准备文本语料库并为其分配所需的标签。查看thread,了解有关语料库嵌入器的一些提示。

  1. 使用某些 OCR 包(即 tesseract)提取文本
  2. 将文本编码为潜在空间
  3. 训练你的模型

这是最简单的方法。

当您根据一些视觉特征确定文档类型时,它会变得更加困难。然后您必须深入了解 CNN 架构,因为手动定义这些功能将非常困难且容易出错。

【讨论】:

  • 谢谢,皮奥特!最后我可能会使用 OCR 和 NLP。 :)
猜你喜欢
  • 2015-04-02
  • 1970-01-01
  • 2014-05-12
  • 2014-05-26
  • 1970-01-01
  • 1970-01-01
  • 2013-06-18
  • 2012-03-02
  • 2011-05-26
相关资源
最近更新 更多