【发布时间】:2020-05-14 05:11:55
【问题描述】:
我需要读取 100 个 S3 文件夹的 csv 文件。在单次执行中,它可能仅在少数 S3 文件夹中获取文件,例如 60 个文件夹有文件。我需要处理这 60 个文件并将这些数据发布到 Kafka 主题中。这项工作需要每 4 小时安排一次。 CSV 数据可以是小记录,也可以是 6 GB 等大数据。 我必须用 Java 开发并部署到 AWS。 考虑使用 Spring Batch:如下步骤: 1. 遍历所有 100 个 S3 文件夹并识别每个包含文件的文件夹,例如60个文件夹有文件。 2.创建许多工作\任务,例如60 个作业并并行执行。
限制:我不应该在这个过程中使用 AWS EMR。
请向我建议一种处理这种最佳性能的好方法,并以最少的故障数据处理。
【问题讨论】:
标签: java spring amazon-web-services spring-batch