【问题标题】:issue while loading data in cassandra using dsbulk使用 dsbulk 在 cassandra 中加载数据时出现问题
【发布时间】:2019-08-12 20:36:03
【问题描述】:

我在使用 dsbulk 将数据从 .csv 文件加载到表中时遇到问题。 我在错误日志中得到如下所示。

原因:com.datastax.driver.core.exceptions.OperationTimedOutException:[/10.0.126.13:9042] 等待服务器响应超时

这个环境是我们的3个节点,8个CPU,64G内存的POC环境。根据我的观察,当我运行 dsbulk 命令时,它会耗尽服务器上的所有 CPU,并且内存消耗也很高。

如果你能给我一个微调 dsbulk 的指针,通过它可以减少 cpu 使用/内存消耗。如果此操作变慢并且我获得可管理的性能,我可以接受。

【问题讨论】:

    标签: cassandra datastax-enterprise dsbulk


    【解决方案1】:

    您可以指定--executor.maxPerSecond 选项来限制每秒的操作数。请参阅documentation for DSBulk

    您也可以尝试调整batching options,例如--batch.maxBatchStatements

    还建议从单独的机器上运行 DSBulk 以防止它影响 DSE 的性能。 (这是所有负载测试等的常见建议)

    【讨论】:

    • 我试图使用 --batch.maxBatchStatements 但它说无效选项和错误。另外,如果我尝试从其他机器运行此命令,-h 下的 ipaddress 应该是什么?
    • 什么版本的 DSBulk?
    【解决方案2】:

    感谢大家的帮助,我能够通过下载最新版本的 debulk 并将批量大小设置为 5000 来解决此问题。

    【讨论】:

      猜你喜欢
      • 2019-02-24
      • 1970-01-01
      • 2020-08-30
      • 2020-07-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-07-27
      • 1970-01-01
      相关资源
      最近更新 更多