没有 S3Object 的 R（爪子）中的文本提取

【问题标题】：Textract in R (paws) without S3Object没有 S3Object 的 R（爪子）中的文本提取
【发布时间】：2021-09-06 10:26:12
【问题描述】：

当使用 R 中 paws 包中的 textract 时，start_document_analysis 调用需要 DocumentLocation 中的 S3Object 路径。

textract$start_document_analysis(
    DocumentLocation = list(
      S3Object = list(Bucket = bucket, Name = file)
    )
  )

是否可以在没有 S3Object 的情况下使用DocumentLocation？我宁愿只提供本地 PDF 的路径。

【问题讨论】：

标签： r amazon-web-services pdf

【解决方案1】：

start_document_analysis api 仅支持提供 s3 对象作为输入，而不支持像 analyze_document api 那样的 base64 编码字符串（另请参阅 https://docs.aws.amazon.com/cli/latest/reference/textract/start-document-analysis.html 上的 CLI 文档）

不幸的是，您必须使用 S3 作为（临时）存储数据的地方。当然，您可以编写自己的逻辑来做到这一点:)。可以在以下位置找到很棒的教程 https://www.gormanalysis.com/blog/connecting-to-aws-s3-with-r/ 由于您已经设置了凭据等，因此您可以跳过很多步骤，例如从第 3 步开始。

【讨论】：