【问题标题】:Does AWS Comprehend classify images?AWS Comprehend 是否对图像进行分类?
【发布时间】:2020-07-18 16:09:34
【问题描述】:

我对 AWS Comprehend 还很陌生。我知道 AWS Comprehend 可以自定义分类文档(文本文件)。 AWS Comprehend 是否也对图像文件进行分类?此外,在训练模型时,是否有必要在 CSV 中提供整个文档文本,还是只使用关键字?

原因是,我想构建一个自定义分类器,可以对发票、付款存根和少数其他图像格式的此类文档类型进行分类。领悟能做到吗?如果有怎么办?

谷歌搜索了很多,但找不到任何相关的东西。非常感谢您对此提供的帮助。

谢谢!

【问题讨论】:

标签: amazon-web-services amazon-comprehend


【解决方案1】:

Comprehend 本身并不执行此操作,因此您必须构建一个解决方案。您可以尝试组合Amazon Textract(用于从文档中提取详细信息),然后通过 Comprehend 对它们进行分类。

在常见问题解答中,Textract 将此称为常见用例。我找不到有人这样做的确切例子,但它直接在documentation 中被调用。

【讨论】:

  • 我结合使用 Apache Tika 和 Amazon Textract 从图像文件中提取数据,并从所有文件的提取内容中创建了一个 CSV 文件。然后我使用 CSV 文件作为分类器的输入。它按预期工作。谢谢!
【解决方案2】:

Amazon Comprehend 仅适用于文本。

Amazon Rekognition 适用于图像。

【讨论】:

    【解决方案3】:

    AWS 拥有完成此任务的所有构建块,但您必须自己配置/构建它。您可以使用 AWS Textract 从文档中提取所有文本,然后将文本传递到 AWS Comprehend 服务以对文档类型进行分类。

    在执行此操作之前,您需要训练 Comprehend 的机器学习部分以正确识别文档类型。您需要在 AWS Comprehend 中配置和训练一个自定义分类器,您可以在其中提供一个 CSV 文件,其中包含一个分类列表,例如“文档类型”,然后是文档类型中的文本。如果只是表单,则可以使用 Textract Form 功能仅获取键值对,然后将键(表单中的标签)用作自定义分类器的文本。

    【讨论】:

      猜你喜欢
      • 2020-02-09
      • 2017-06-01
      • 1970-01-01
      • 2021-06-27
      • 2021-09-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-12-15
      相关资源
      最近更新 更多