Hadoop集群实例

一、基础环境

Hadoop是用Java开发的，Hadoop的编译及MapReduce的运行都需要使用JDK。
Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上的进程，只不过伪分布式中salve为localhost(即为自身)，所以对于伪分布式Hadoop，SSH一样是必须的。
1.1 JDK的安装与配置
1、上传压缩包
我使用的是HDFS工具上传jdk-7u76-linux-x64.tar.gz压缩包

2、解压压缩包到指定目录下
tar -zxvf jdk-7u76-linux-x64.tar.gz -C /root/opt/module
Hadoop集群实例
4、配置环境变量
vi /etc/profile

5、重新加载/etc/profile，使配置生效
source /etc/profile
6、查看配置是否生效
echo $PATH
java -version

出现如上信息表示已经配置好了。

二、Host配置
vi /etc/hosts
可以通过hosts来修改服务器名称为master、slave1、slave2
Hadoop集群实例
vi /etc/hostname
修改hostname内容为主机名 master

三、Hadoop的安装与配置
使用的是HDFS 上传hadoop-2.7.3tar.gz压缩包到当前路径下，然后使用以下命令将hadoop-2.7.3tar.gz 解压缩到指定目录tar -zxvf hadoop-2.7.1.tar.gz -C /root/opt/module
3.3 配置环境变量
回到根目录，配置hadoop环境变量，命令如下：
vi/etc/profile
在/etc/profile添加如下内容

立刻让hadoop环境变量生效，执行如下命令：
source /etc/profile
再使用hadoop命令，发现可以有提示了，则表示配置生效了。

3.4 Hadoop的配置
进入hadoop-2.7.1的配置目录：
cd /data/hadoop-2.7.1/etc/hadoop
依次修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml以及slaves文件。
3.4.1 修改core-site.xml
Hadoop集群实例
3.4.2 修改vi hdfs-site.xml

3.4.3 修改vi mapred-site.xml
复制template，生成xml，命令如下：
cp mapred-site.xml.template mapred-site.xml

3.4.4 修改vi yarn-site.xml

3.4.5 修改hadoop-2.7.3/etc/hadoop/slaves
将原来的localhost删除，改成如下内容
vi /data/hadoop-2.7.1/etc/hadoop/slaves
最后如果配置完全分布式集群就将整个hadoop-2.7.1文件夹及其子文件夹使用scp复制到slave1和slave2的相同目录中：
scp -r /root/opt/module/hadoop-2.7.3 [email protected]:/data
scp -r /root/opt/module/hadoop-2.7.3 [email protected]:/data
Hadoop集群实例
四、运行Hadoop
4.1 格式化执行命令：hadoop namenode -format
4.2 启动start-all.sh
4.3 查看集群是否启动成功：输入jps

5. 测试
在web界面输入：ip:8088和IP:50070正常显示如下图则说明集群搭建成功:

Hadoop集群实例

Hadoop集群实例
!](https://img-blog.csdnimg.cn/20190521164928473.JPG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDA4Nzg4Ng==,size_16,color_FFFFFF,t_70)