hadoop 问题排查
hadoop集群中多个datanode正常,只有一个datanode启动失败,通过查看日志得知连接namenode超时,首选确认防火墙是或否关闭,端口是否开放,ssh是否互通,最常见的是namenode的/etc/hosts文件一开始有2行#注释的示例,需要删除,做完上面这几部还是没成功,上网查了好久,也是没头绪,后面只能查找namenode日志的启动日志,有惊喜hadoop问题排错
原来是集群启用了机架感知,而这个节点没有加入机架感知中,导致在启动的时候就被移除了,加入机架或者移除机架,问题解决…以此谨记

相关文章: