【问题标题】:Cluster integrity has been disturbed集群完整性受到干扰
【发布时间】:2016-04-04 07:55:02
【问题描述】:

我每周只在 2 节点集群的一个节点上收到此错误。 这是我在 AMC 上遇到的错误:

主要错误:

集群完整性受到干扰

每组错误:

节点显示的命名空间测试的复制因子不匹配

有关信息,这 2 个节点具有相同的 aerospike.conf 文件,复制因子为 2。 引起我注意的另一件事是,整个集群不可用,而只有一个节点关闭(不可见),所以我对 Aerospike 的 HA 提出质疑。

为了解决这个问题,我只是重启了不可见的节点。

On the aerospike documentation 它说:

如果一组节点从主集群中分离出来,这可能是真的。 (这有时被称为脑裂。)通常,最简单的方法是重新启动“丢失”的节点以使其重新加入集群。

但是由于这个问题每周都会发生,我很想一劳永逸地解决这个问题:)

【问题讨论】:

  • 您能否在日志中查找“集群完整性”(不区分大小写),如果有任何错误请分享。版本也会有帮助
  • 我感觉到力的干扰。
  • @BenBates 日志:CLUSTER INTEGRITY FAULT. [Phase 1 of 2] To fix, issue this command across all nodes: dun:nodes=bb9648009565000,bb9017602565000 版本:社区版 3.7.0.1 如果您需要更多,请告诉我
  • 这只是错误信息,在此之前我可能需要 1000 行。

标签: aerospike


【解决方案1】:

一个建议是将 paxos-recovery-policy 设置为 auto-reset-master 并且假设问题的原因是临时的网络流量意味着集群可能会失去完整性,那么集群应该自行重新组合在一起。

【讨论】:

  • 感谢您的建议,我更新了此配置,我会及时更新。
  • 10 天后,未检测到集群完整性问题。谢谢!
【解决方案2】:

我在 Aerospike 工作,在做了一些研究之后,“节点显示的命名空间测试的复制因子不匹配”可能与不可见的节点相关联。在复制因子为 2 的 2 节点集群中,当一个节点不可用时,复制因子将降至 1 以保持数据可用性。当节点重新加入集群时,复制因子会在短时间内不匹配,AMC 将重试,您应该不会看到此错误的重复。

我们需要深入到节点下降问题的底部才能回答您的第二个问题,请参阅我的评论。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-04-03
    • 2013-10-03
    • 2017-10-04
    • 2015-10-30
    • 2020-12-09
    • 2014-03-08
    • 2011-06-24
    • 2013-12-01
    相关资源
    最近更新 更多