安装并配置hadoop

.Hadoop简介

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。

HDFS：Hadoop Distributed File System 的缩写，Hadoop中的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。

MapResuce：MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，而从海量数据中提取分析我们需要的内容就是MapReduce做的事了

进入hadoop官网进行下载，下载地址：https://hadoop.apache.org/releases.html

安装并配置hadoop

这里我下载的是2.7.3版本的Hadoop，你也可以选择下载别的版本，用xftp(没有这个可以从网上自己下载一个)把下载好的传到你自己定义的目录中，这里我放在了自己创建的installpkgs目录下，如下图所示：

安装并配置hadoop

完成之后，输入tar -xzvf hadoop-2.7.3.tar.gz 命令进行解压，之后在其他虚拟机上做同样的操作，这里我其他两个虚拟机的名字分别是：hadoop-slave1,hadoop-slave2.解压完成后就是在当前目录下如图：

安装并配置hadoop

配置hadoop环境变量，我的安装目录/home/hadoop/installpkgs/hadoop-2.7.3

输入命令 vi ~/.bashrc 添加如下代码：

export HADOOP_HOME=/home/hadoop/installpkgs/hadoop-2.7.3

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

安装并配置hadoop

保存退出，输入命令 source ~/.bashrc 加载该文件，输入hadoop version 进行验证如下图所示则表示成功：

安装并配置hadoop

每个虚拟机做同样的工作，也可以把写好的一个传送两外连个虚拟机上，命令如下：

安装并配置hadoop

在另外两个虚拟机用cat ~/.bashrc命令进行查看, 输入命令source .bashrc 加载该文件，之后用hadoop version 进行验证，这里我只展示一个例子如下图：

安装并配置hadoop

这样我们hadoop的环境变量就配置完成了，之后我们要开始操作hadoop了，在操作之前，我们需要关闭防火墙及selinxu守护进程，如果不关闭，在启动hadoop的时候可能报错或无法启动，每个虚拟机上都要做如下操作：

systemctl status firewalld # 查看防火墙状态

systemctl stop firewalld # 关闭防火墙

systemctl disable firewalld #禁止开机时启动

如下图所示：

安装并配置hadoop

关闭selinux守护线程：使用root用户

su root # 切换到rot用户

getenforce # 查看selinux守护线程的状态

setenforce 0 # 关闭selinux守护线程

exit # 回到原来的终端

如下图所示：

安装并配置hadoop

这样我们的hadoop安装和配置就完成了，