【问题标题】:Optimizing Neptune Bulk Load Jobs?优化 Neptune 批量加载作业?
【发布时间】:2021-09-24 23:59:50
【问题描述】:

目前,我们正在运行一个自动化引擎,为我们的 Neptune 历史负载排队数十亿个节点/边缘。

数据从 Kafka 中取出并将批量 CSV 写入 S3 以启动加载。目前,我在每批从队列中提取几百万条记录后上传文件。

我正在使用 oversubscribe 参数并查看高级文档以进行批量优化。我看到我每小时可以获得大约 3600 万条记录,但希望速度更快。我希望输出文件更大吗?我一次只能运行一项工作,而且我的队列一直被填满,上限为 65 个。

【问题讨论】:

    标签: amazon-neptune


    【解决方案1】:

    一般来说,较大的文件应该比较小的文件提供更好的性能,因为运行负载的工作线程会在它们之间划分文件。更大的实例也有助于负载更快。如果可能,当您要加载大量数据时,db.r5.12xlarge 是一个不错的选择。一旦您需要实现的写入量变慢并且较小的实例就足够了,您可以再次缩减它。

    【讨论】:

      猜你喜欢
      • 2022-01-17
      • 2021-08-26
      • 1970-01-01
      • 1970-01-01
      • 2023-03-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多