Hadoop学习（四）伪分布运行模式

伪分布模式：只有一个节点的分布式

一、启动HDFS并运行MapReduce程序

1、配置集群

将目录切换到：/opt/module/hadoop-2.7.2/etc/hadoop

（1）配置hadoop-env.sh

该配置文件中修改JAVA_HOME路径，上一篇文章修改过

（2）配置core-site.xml

打开文件：vim core-site.xml

在标签configuration中添加以下内容：

Hadoop学习（四）伪分布运行模式

修改默认文件系统（defaultFS）为HDFS文件系统，hadoop:9000指定了是哪一个HDFS文件系统

（3）配置hdfs-site.xml

在标签configuration中添加以下内容：

Hadoop学习（四）伪分布运行模式

默认的副本数量是3，此处为1是因为只有一个节点，单一节点之多存储一个副本

============以上HDFS配置结束===============

2、启动集群

（1）格式化NameNode（第一次启动时格式化，以后无特殊需要不要格式化，总格式化会导致错误）

注：第一次启动时格式化，以后无需要不要格式化，会导致错误。正确无错误的启动namenode和datanode后，二者的clusterID时相同的，再次格式化后启动namenode，其clusterID会被赋予新的值，datanode的clusterID和namenode的不同，导致datanode启动失败。解决办法是将目录/opt/module/hadoop-2.7.2/data/tmp/dfs下的data文件夹删除（存放datanode数据），再次启动就可以正常启动

退回目录到：/opt/module/hadoop-2.7.2

格式化命令：bin/hdfs namenode -format

Hadoop学习（四）伪分布运行模式