【问题标题】:Using DSBulk for backup/restore takes too long使用 DSBulk 进行备份/恢复需要太长时间
【发布时间】:2021-12-25 12:39:44
【问题描述】:

我使用 dsbulk 对 cassandra 集群进行基于文本的备份和恢复。我创建了一个 python 脚本,它使用 dsbulk 加载/卸载备份/恢复 cassandra 集群中的所有表,但由于为每个表创建了新会话(大约 7 秒),即使数据较少也需要很长时间,在我的情况下,我有 70表,因此由于会话创建而添加了 70*7s。有没有办法使用 dsbulk 使用单个会话从集群中的所有表中备份数据?从文档中,我看到 dsbulk 一次仅适用于单个表加载/卸载。有什么替代方法或其他方法吗?有的话请推荐..!

谢谢..

【问题讨论】:

    标签: cassandra backup dsbulk


    【解决方案1】:

    不,没有办法在一次 DSBulk 执行中加载/卸载多个表,因为这样做没有意义。

    无论如何,不​​建议使用将数据卸载到 CSV 作为备份集群的方法,因为无法保证数据在某个时间点保持一致。

    备份 Cassandra 集群的正确方法是使用 nodetool snapshot 命令。详情请见Apache Cassandra Backups

    如果您有兴趣,有一个开源工具可以让您自动备份 - https://github.com/thelastpickle/cassandra-medusa。干杯!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-08-29
      • 2021-11-20
      • 1970-01-01
      • 2015-12-15
      • 1970-01-01
      • 1970-01-01
      • 2014-07-08
      • 1970-01-01
      相关资源
      最近更新 更多