使用 dsbulk 在 cassandra 中加载数据时出现问题答案

【问题标题】：issue while loading data in cassandra using dsbulk使用 dsbulk 在 cassandra 中加载数据时出现问题
【发布时间】：2019-08-12 20:36:03
【问题描述】：

我在使用 dsbulk 将数据从 .csv 文件加载到表中时遇到问题。我在错误日志中得到如下所示。

原因：com.datastax.driver.core.exceptions.OperationTimedOutException：[/10.0.126.13:9042] 等待服务器响应超时

这个环境是我们的3个节点，8个CPU，64G内存的POC环境。根据我的观察，当我运行 dsbulk 命令时，它会耗尽服务器上的所有 CPU，并且内存消耗也很高。

如果你能给我一个微调 dsbulk 的指针，通过它可以减少 cpu 使用/内存消耗。如果此操作变慢并且我获得可管理的性能，我可以接受。

【问题讨论】：

【解决方案1】：

您可以指定--executor.maxPerSecond 选项来限制每秒的操作数。请参阅documentation for DSBulk。

您也可以尝试调整batching options，例如--batch.maxBatchStatements。

还建议从单独的机器上运行 DSBulk 以防止它影响 DSE 的性能。（这是所有负载测试等的常见建议）

【讨论】：

我试图使用 --batch.maxBatchStatements 但它说无效选项和错误。另外，如果我尝试从其他机器运行此命令，-h 下的 ipaddress 应该是什么？
什么版本的 DSBulk？
最新版本为1.3.3：downloads.datastax.com/dsbulk/dsbulk-1.3.3.tar.gz

【解决方案2】：

感谢大家的帮助，我能够通过下载最新版本的 debulk 并将批量大小设置为 5000 来解决此问题。

【讨论】：