使用 AWS Textract 进行 OCRed 的 pdf 页面数量是否有限制？答案

【问题标题】：Is there any limit on number of pdf pages to be OCRed using AWS Textract?使用 AWS Textract 进行 OCRed 的 pdf 页面数量是否有限制？
【发布时间】：2022-01-25 09:28:01
【问题描述】：

我正在使用 AWS Textract 对基于图像的 pdf 进行 OCRing

我拥有的每个 PDF 都有 60 多页

但是当我尝试对 pdf 文件进行 OCR 时，它只对每个文件的前 4 页执行此操作。

AWS 提取的 pdf 文件中的页数是否有限制

我找到了这个https://docs.aws.amazon.com/textract/latest/dg/limits.html

但没有提到任何页数限制！！

有人知道pdf页面有没有限制吗？

如果是这样，我怎样才能对 60 多页的整个文件进行 OCR？

【问题讨论】：

标签： amazon-web-services pdf amazon-textract

【解决方案1】：

文本的硬性限制是 1000 页或 PDF 的 500mb。

我认为您的问题与 textract 的批处理响应有关。您必须查看 json 输出中的键“NextToken”是否已填充，如果是，则必须使用该令牌发出另一个请求。

【讨论】：