【发布时间】:2015-05-26 20:15:24
【问题描述】:
我是使用 Cloudera Manager 的新手。我在 AWS 上有一个使用 Cloudera 标准版的 2 节点 Hadoop 集群。我注意到 Cloudera Manager 无法与其中一个节点(例如节点 1)建立连接。出于某种原因,我决定停用节点 1 并添加一个新节点。因此,我创建了一个新的 ec2 实例,并附加了我想要停用的实例的卷。我已经关闭了 Node 1 ec2 实例。
现在,我尝试使用 Cloudera Manager 从集群中停用该节点。但是,它尝试停止节点 1(现在已关闭)上的角色,但它在那里失败了。在那台机器上运行的角色是 RegionServer、Impala、TaskTracker、Datanode 和 Gateway。
尝试关闭 TaskTracker 角色时失败。
我不知道现在该做什么。请帮忙。
【问题讨论】:
-
请更新您的描述,包含 TaskTracker 关闭失败的错误消息和相关日志。这在调试这个问题时会有很大帮助。 Cloudera Manager 应该保留命令的历史记录,您可以在其中找到此信息。
-
我收到一条错误消息,提示“服务 'mapreduce1 的命令 'DecommissionWithWait' 失败”。我没有看到 TaskTracker 日志,因为该节点甚至没有启动和运行。还有一点需要注意的是,当我登录 JobTracker WebUI 时,我看到我关闭的节点已经在“排除节点”列表中。
-
感谢您的澄清。在这种情况下,由于 CM 无法连接到节点 1,我们是否可以简单地从集群中删除节点 1 而不是将其退役?这将从其余服务中删除节点 1 的角色。
标签: hadoop amazon-web-services cloudera