【发布时间】:2015-06-10 19:51:39
【问题描述】:
这是我在任何地方都找不到的东西。
我有一个带有一些从属的 YARN 集群。当从属失败时(混乱猴子、缩小规模等),ResourceManager 不会“得到它”。即使是rmadmin -refreshNodes 也无法修复它。 ResourceManager 不断将失败的节点列为RUNNING。我该怎么做才能让 ResourceManager 检查从属服务器的健康状况并在它们失败时将其移除?
【问题讨论】:
标签: hadoop hadoop-yarn hadoop2 resourcemanager