具有高可用性的 Namenode 与基于 Zookeeper 的领导者选择答案

【问题标题】：Namenode with high availability vs zookeeper based leader selection具有高可用性的 Namenode 与基于 Zookeeper 的领导者选择
【发布时间】：2018-04-13 19:04:22
【问题描述】：

我正在阅读 Apache Hadoop 文档和 cloudera 文档中的 2 个不同的内容。
基于cloudera，我们应该将namenode设置为高可用模式，即：通过定义primary和secondary namenode，但根据Hadoop文档，这应该由zookeeper自动处理，它应该在可用的datanode中决定namenode。

谁能解释一下区别和使用哪一个？

【问题讨论】：

标签： hadoop hdfs apache-zookeeper

【解决方案1】：

通过定义主要和次要名称节点

有一个“辅助名称节点”这样的东西，但它实际上是一个非常不同的东西，因为它不是备用的并且能够变得活跃。

没有“对”。 Namenode HA 需要 Zookeeper

如果您阅读更多 Cloudera documentation 文章，一定会提到 Zookeeper。

自动故障转移向 HDFS 部署添加了两个新组件：ZooKeeper quorum 和 ZKFailoverController 进程（缩写为 ZKFC）。

Cloudera 不会在核心 Hadoop 功能之上打包太多额外功能（如果有的话）。

关于你的问题...

这应该由 zookeeper 自动处理

如果 HDFS Zookeeper 属性（手动）配置，Zookeeper 正在运行，并且 Active Namenode 关闭，则故障转移是自动的。

在可用的数据节点中

该操作与datanodes无关

【讨论】：

另外值得一提的是：Primary/Secondary 操作模式也是存在的，并且工作方式不同。这些天来，绝对应该使用 Zookeeper 进行主动/被动设置，如前所述。