纱线自动检测从属故障答案

【问题标题】：Yarn autodetect slaves failure纱线自动检测从属故障
【发布时间】：2015-06-10 19:51:39
【问题描述】：

这是我在任何地方都找不到的东西。

我有一个带有一些从属的 YARN 集群。当从属失败时（混乱猴子、缩小规模等），ResourceManager 不会“得到它”。即使是rmadmin -refreshNodes 也无法修复它。 ResourceManager 不断将失败的节点列为RUNNING。我该怎么做才能让 ResourceManager 检查从属服务器的健康状况并在它们失败时将其移除？

【问题讨论】：

标签： hadoop hadoop-yarn hadoop2 resourcemanager

【解决方案1】：

请查看 Hadoop 权威指南，第 10 章，维护、调试和停用节点。看起来您正在尝试使用上述命令更新 jobtracker。那里提到了更详细的过程，以及更新名称节点、验证 Web UI 中的进度以及从包含文件和从属文件中删除节点

【讨论】：