hadoop问题排错

hadoop 问题排查
hadoop集群中多个datanode正常，只有一个datanode启动失败，通过查看日志得知连接namenode超时，首选确认防火墙是或否关闭，端口是否开放，ssh是否互通，最常见的是namenode的/etc/hosts文件一开始有2行#注释的示例，需要删除，做完上面这几部还是没成功，上网查了好久，也是没头绪，后面只能查找namenode日志的启动日志，有惊喜 hadoop问题排错
原来是集群启用了机架感知，而这个节点没有加入机架感知中，导致在启动的时候就被移除了，加入机架或者移除机架，问题解决…以此谨记