【问题标题】:Textract in R (paws) without S3Object没有 S3Object 的 R(爪子)中的文本提取
【发布时间】:2021-09-06 10:26:12
【问题描述】:

当使用 R 中 paws 包中的 textract 时,start_document_analysis 调用需要 DocumentLocation 中的 S3Object 路径。

textract$start_document_analysis(
    DocumentLocation = list(
      S3Object = list(Bucket = bucket, Name = file)
    )
  )

是否可以在没有 S3Object 的情况下使用DocumentLocation?我宁愿只提供本地 PDF 的路径。

【问题讨论】:

    标签: r amazon-web-services pdf


    【解决方案1】:

    start_document_analysis api 仅支持提供 s3 对象作为输入,而不支持像 analyze_document api 那样的 base64 编码字符串(另请参阅 https://docs.aws.amazon.com/cli/latest/reference/textract/start-document-analysis.html 上的 CLI 文档)

    不幸的是,您必须使用 S3 作为(临时)存储数据的地方。当然,您可以编写自己的逻辑来做到这一点:)。可以在以下位置找到很棒的教程 https://www.gormanalysis.com/blog/connecting-to-aws-s3-with-r/ 由于您已经设置了凭据等,因此您可以跳过很多步骤,例如从第 3 步开始。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多