【发布时间】:2016-03-22 15:13:40
【问题描述】:
实际上,作为最终项目分配的大数据项目,我一直在寻找一种在完全分布式集群上运行 HDFS 联合的方法。
我的集群的规格是:
- Hadoop 2.7.2
- JDK 1.8.74
- 操作系统系统为 CentOS 6.7
- 2 个名称节点(Namenode1 和 Namenode2)
- 2 个数据节点(Datanode1 和 Datanode2)
- 1 个客户端(为 ViewFS 挂载表配置)
使用一个namenode,集群(1个namenode + 2个datanodes)工作正常,所有配置看起来都正确。
我什至在 Apache Hadoop 的官方文档中都找不到那么多解释如何完全配置 HDFS 联合(用于运行共享所有数据节点的名称节点)的教程。 我用的是下面那个Fully Distributed Hadoop Federation Cluster
我尝试有效地运行 HDFS 联合失败了,即使 dfs 守护程序已成功启动,但并非所有名称节点都使用数据节点。
实际情况:
当我启动 dfs 服务(使用 start-dfs.sh)时,Namednode1 使用所有数据节点,而 Namenode2 不使用任何数据节点。 或者每个namenode只使用一个唯一的datanode(Namenode1使用Datanode1,Namenode2使用Datanode2)。
datanodes 的使用似乎是随机的,但它们永远不会同时被两个 namenodes 使用(我的目标)
如果有人知道如何使用多个名称节点运行 HDFS 联合,欢迎您提供帮助 =P 谢谢。
【问题讨论】:
标签: hdfs cluster-computing hadoop2 federation