【发布时间】:2021-06-19 16:37:03
【问题描述】:
我需要从 S3 中的 PDF 和图像文件中获取 OCR(光学字符识别)数据,以便用户可以对该 OCR 数据执行搜索。我正在使用 AWS Textract 进行文本提取以获取 OCR 数据。
我打算将 OCR 数据存储在 Dynamo DB 中并在其中执行搜索查询。
我面临的问题是由于 dynamo db 项目的大小限制为 400KB。
我遇到用户在 S3 中上传 100+ MB PDF 文件的情况,其中提取的文本内容将超过此限制。那么在这种情况下,最好的方法是什么。
请帮忙 提前致谢!
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-dynamodb amazon-textract