【问题标题】:Is there any limit on number of pdf pages to be OCRed using AWS Textract?使用 AWS Textract 进行 OCRed 的 pdf 页面数量是否有限制?
【发布时间】:2022-01-25 09:28:01
【问题描述】:

我正在使用 AWS Textract 对基于图像的 pdf 进行 OCRing

我拥有的每个 PDF 都有 60 多页

但是当我尝试对 pdf 文件进行 OCR 时,它只对每个文件的前 4 页执行此操作。

AWS 提取的 pdf 文件中的页数是否有限制

我找到了这个https://docs.aws.amazon.com/textract/latest/dg/limits.html

但没有提到任何页数限制!!

有人知道pdf页面有没有限制吗?

如果是这样,我怎样才能对 60 多页的整个文件进行 OCR?

【问题讨论】:

    标签: amazon-web-services pdf amazon-textract


    【解决方案1】:

    文本的硬性限制是 1000 页或 PDF 的 500mb。

    我认为您的问题与 textract 的批处理响应有关。您必须查看 json 输出中的键“NextToken”是否已填充,如果是,则必须使用该令牌发出另一个请求。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-09-24
      相关资源
      最近更新 更多