【问题标题】:Using Cloudera Manager to decommission a node使用 Cloudera Manager 停用节点
【发布时间】:2015-05-26 20:15:24
【问题描述】:

我是使用 Cloudera Manager 的新手。我在 AWS 上有一个使用 Cloudera 标准版的 2 节点 Hadoop 集群。我注意到 Cloudera Manager 无法与其中一个节点(例如节点 1)建立连接。出于某种原因,我决定停用节点 1 并添加一个新节点。因此,我创建了一个新的 ec2 实例,并附加了我想要停用的实例的卷。我已经关闭了 Node 1 ec2 实例。

现在,我尝试使用 Cloudera Manager 从集群中停用该节点。但是,它尝试停止节点 1(现在已关闭)上的角色,但它在那里失败了。在那台机器上运行的角色是 RegionServer、Impala、TaskTracker、Datanode 和 Gateway。

尝试关闭 TaskTracker 角色时失败。

我不知道现在该做什么。请帮忙。

【问题讨论】:

  • 请更新您的描述,包含 TaskTracker 关闭失败的错误消息和相关日志。这在调试这个问题时会有很大帮助。 Cloudera Manager 应该保留命令的历史记录,您可以在其中找到此信息。
  • 我收到一条错误消息,提示“服务 'mapreduce1 的命令 'DecommissionWithWait' 失败”。我没有看到 TaskTracker 日志,因为该节点甚至没有启动和运行。还有一点需要注意的是,当我登录 JobTracker WebUI 时,我看到我关闭的节点已经在“排除节点”列表中。
  • 感谢您的澄清。在这种情况下,由于 CM 无法连接到节点 1,我们是否可以简单地从集群中删除节点 1 而不是将其退役?这将从其余服务中删除节点 1 的角色。

标签: hadoop amazon-web-services cloudera


【解决方案1】:


根据 Cloudera 文档,停用操作会停止某些角色并将节点(主机)置于特殊的“停用”状态 - http://www.cloudera.com/content/cloudera/en/documentation/archives/cloudera-manager-4/v4-5-3/Cloudera-Manager-Enterprise-Edition-User-Guide/cmeeug_topic_7_8.html。考虑到这一点,并且您无权访问此节点,您失败的最可能原因是 Cloudera Manager 无法停止其上的服务。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-04-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多