【发布时间】:2014-05-07 23:53:15
【问题描述】:
环境
我们有以下在 Red Hat 6.5 上运行的 Cassandra 集群(版本 2.0.5)数据中心:
- DC1:5 个节点,NetworkTopologyStrategy 设置为 5
- DC2:4 个节点,NetworkTopologyStrategy 设置为 3
创建KEYSPACE的脚本如下:
CREATE KEYSPACE OUR_STUFF WITH replication = {'class':'NetworkTopologyStrategy', 'DC1':5, 'DC2':3};
我们没有任何其他密钥空间(当然 system_auth 除外)
我们总是使用LOCAL_QUORUM 选项写入一个 DC。
我们在 DC1 和 DC2 之间有网络连接问题,每天都在发生,理论上连接可能会中断数天/数周。
对于测试建议,我们将大约 50 GB 的数据加载到集群中。
问题
主要问题是命令:节点工具修复通常挂起并且可能需要几个小时 - 使用 par 选项或多或少 3 小时,没有 par 选项 6 小时。 此外,在过去 2 周中,节点工具修复命令挂起,并且超过一天没有发生任何事情。我们在日志文件中没有发现任何错误。我们不会将更多数据加载到集群中。 Cassandra 建议在每个节点上每 10 天运行一次节点工具修复,并且您不应运行多个修复。但我们找不到以下问题的答案:
- 如何查看修复命令的状态?
- 修复命令挂起怎么办?
- 我们应该在日志文件中查看哪些内容以检查问题所在?
- 如何避免并行运行 2 个修复命令?
- 还有最重要的一个(上面的总结):如何避免 nodetool repair 命令出现问题?
【问题讨论】:
标签: cassandra