优化 Neptune 批量加载作业？答案

【问题标题】：Optimizing Neptune Bulk Load Jobs?优化 Neptune 批量加载作业？
【发布时间】：2021-09-24 23:59:50
【问题描述】：

目前，我们正在运行一个自动化引擎，为我们的 Neptune 历史负载排队数十亿个节点/边缘。

数据从 Kafka 中取出并将批量 CSV 写入 S3 以启动加载。目前，我在每批从队列中提取几百万条记录后上传文件。

我正在使用 oversubscribe 参数并查看高级文档以进行批量优化。我看到我每小时可以获得大约 3600 万条记录，但希望速度更快。我希望输出文件更大吗？我一次只能运行一项工作，而且我的队列一直被填满，上限为 65 个。

【问题讨论】：

【解决方案1】：

一般来说，较大的文件应该比较小的文件提供更好的性能，因为运行负载的工作线程会在它们之间划分文件。更大的实例也有助于负载更快。如果可能，当您要加载大量数据时，db.r5.12xlarge 是一个不错的选择。一旦您需要实现的写入量变慢并且较小的实例就足够了，您可以再次缩减它。

【讨论】：